爬蟲入門到放棄系列04 我對錢沒有興趣

2021-10-19 19:17:21 字數 3380 閱讀 3929

我們身處大資料時代,資料趨於透明化、公開化,我們是否就可以拿著資料為所欲為?幾年前很多人嚮往著"車厘子自由",同樣在也有很多人也追求著技術自由。時至今日,我們可以在合法的範圍內自由應用技術,那麼對於爬蟲的合法化,到底有哪些的法律可以來界定?

在很長的一段時間內,很多人談爬蟲色變,同時很多調侃爬蟲的段子也應運而生。

因為興趣學習了爬蟲,後來也承擔下了爬蟲開發的工作。我也是被調侃大軍中一員,甚至有一段時間我也都有點不敢開發爬蟲了,現在想想,有點盲目了… 所以本篇文章著重於這一方面來展開,畢竟克服恐懼最好的方法就是去了解它。

從上圖可以看出,在上述法律中只要爬蟲程式不破壞別人的伺服器、不影響**正常執行即可,一般通過限制請求的頻率和執行緒數量就可以避開這個雷區。但是,往往最簡單的問題都會伴隨著乙個經典案例。

2023年,某網際網路公司200人因為一段爬蟲程式被抓的訊息傳得沸沸揚揚,起因是一技術小哥對爬蟲程式沒有限制請求頻率、並增加了執行緒數後進行測試,下班忘了停止程式,大半夜導致目標**的伺服器宕機了,然後被順著網線找到了… 當然,最後200人大多數都沒事,技術小哥承擔了主要責任,而一開始技術小哥由於缺乏這一方面的法律認知,抱著"技術無罪"的心態,導致這個事情走向了極壞的結果。

從這個案例可以明白,限制請求頻率是多麼重要!!正如我前面文章所寫,開發爬蟲要不僅要考慮本身程式效能,更要考慮**使用者數量級對應的**伺服器規模和效能,有的**的伺服器可能只有一台,還是服務共用的。

除了上述的法律規定了爬蟲開發規範,是否還有其他的法律可以間接影響著爬蟲的應用。

《刑法》第二百八十六條還規定,違反國家規定,對計算機資訊系統功能進行刪除、修改、增加、干擾,造成計算機資訊系統不能正常執行,後果嚴重的,構成犯罪,處五年以下有期徒刑或者拘役;後果特別嚴重的,處五年以上有期徒刑。而違反國家規定,對計算機資訊系統中儲存、處理或者傳輸的資料和應用程式進行刪除、修改、增加的操作,後果嚴重的,也構成犯罪,依照前款的規定處罰。

非法入侵系統,這不是黑客的工作麼,這個和爬蟲程式有啥關係,爬蟲又不能進入到後台系統?**的反爬技術一般是通過引數加密等手段,類似於作業系統的密碼,以此來阻止爬蟲獲取資料,在廣義上爬蟲破解反爬技術也算是非法入侵的一種。而爬蟲衍生出來的產業:驗證碼識別服務販賣、seo,如果為不法分子提供了相關的服務,同樣也算是非法入侵。

經典案例:

知乎某極驗破解者自述被抓

「快啊答題」ai破解驗證碼服務開發者被判刑

《刑法》修正案(九)中將刑法第二百五十三條進行了修訂,明確規定違反國家有關規定,向他人**或者提供公民個人資訊,情節嚴重的,構成犯罪;在未經使用者許可的情況下,非法獲取使用者的個人資訊,情節嚴重的也將構成「侵犯公民個人資訊罪」。 根據《最高人民法院 最高人民檢察院關於辦理侵犯公民個人資訊刑事案件適用法律若干問題的解釋》第五條規定,對「情節嚴重」的解釋,(1)非法獲取、**或者提供行蹤軌跡資訊、通訊內容、徵信資訊、財產資訊五十條以上的;(2)非法獲取、**或者提供住宿資訊、通訊記錄、健康生理資訊、交易資訊等其他可能影響人身、財產安全的公民個人資訊五百條以上的;(3)非法獲取、**或者提供第三項、第四項規定以外的公民個人資訊五千條以上的便構成「侵犯公民個人資訊罪」所要求的「情節嚴重」。

個人資訊資料是萬萬碰不得的。非法獲取和**個人資訊和隱私資料至少三年起步。

經典案例:

簡歷大資料公司「巧達科技」被一鍋端

社保掌上通被下架 使用者的資訊很容易洩露太不安全了

爬蟲為何受關注?業內:大資料服務商或因合作方涉套路貸犯罪而被牽連

中數智匯員工私下販賣工商資料被判刑

《反不正當競爭法》第九條,以不正當手段獲取他人商業秘密的行為即已經構成侵犯商業秘密。而後續如果進一步利用,或者公開該等資訊,則構成對他人商業秘密的披露和使用,同樣構成對權利人的商業秘密的侵犯。

利用無版權的商業資料獲利或者獲取同行業資料進行非法競爭,都會觸及法律紅線。

經典案例:

「車來了」涉嫌偷資料被**立案

案例部分參考:

看到這,有點慌。都這樣了,爬蟲還能開發麼,一不小心就踩到紅線了。縱觀上面的各個案例,都有乙個共同點:錢!!!雖然我們沒有馬老師的財富,但只要有馬老師對錢的態度,基本上就避開了很多問題。

其次,現在公開的資料佔了絕大部分,爬蟲能合法獲取的資料很多,而且有反爬技術的**基本上是為了保證資料價值或避免商業競爭,例如天眼查、智聯招聘等**,絕大多數**都沒有反爬措施,只要控制好請求頻率,基本足夠滿足日常需求。

那麼在個人日常工作中如何能合法的開發爬蟲?

我認為爬蟲是一種技術愛好,以此來提高資料收集的效率、簡化工作,而不是賺錢的手段。幫別人開發爬蟲,別人非法使用,追根溯源和開發者脫不了關係。用爬取的資料進行牟利,在利益鏈上誰也不能保證可以獨善其身。

當然,很多**對爬蟲還是很友好的,所以也需要我們抱著同樣的態度去開發爬蟲。

大部分**的根路徑下都會有robots.txt這個檔案,裡面記錄了爬蟲的訪問規則,例如哪個url不能爬取、禁止哪個爬蟲爬取。

再看其他**的規則:

disallow: /user表示所有爬蟲不允許爬取根路徑下user開頭的url。

disallow:/表示ua代表的爬蟲不能爬取此**所有頁面。

如果對某些**的反爬技術感興趣,可以從技術愛好角度研究一下,但是不要進行**傳播或者介面開放,更不要以此牟利,避免影響**的正常運轉。

寫的都是日常工作中的親身實踐,處於自己的角度從0寫到1,保證能夠真正讓大家看懂。

Python爬蟲從入門到放棄(一)之初識爬蟲

整理這個文件的初衷是自己開始學習的時候沒有找到好的教程和文字資料,自己整理乙份這樣的資料希望能對小夥伴有幫助 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 ...

python爬蟲從入門到放棄(一)之初識爬蟲

整理這個文件的初衷是自己開始學習的時候沒有找到好的教程和文字資料,自己整理乙份這樣的資料希望能對小夥伴有幫助 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 ...

python 從入門到放棄 04 流程控制

目錄流程控制之while迴圈 小作業流程控制即為控制事物的執行流程,具體體現在我們編寫的程式執行的順序上。1.順序結構 之上而下的依次執行 2.分支結構 根據某些條件的判斷做出不同的執行流程 3.迴圈結構 根據某些條件的判斷迴圈反覆的做相同的事情 1.在python中使用縮進來表示 的從屬關係 if...