遙想當年,我的第乙份實習工作,還就是做的爬蟲呢。不知不覺 7 年過去了,如今首例利用爬蟲技術非法盜抓資料案都已經被判違法了。
我記得我第乙份實習工作,就是做的爬蟲,利用爬蟲技術,去爬取各種論壇和**,然後要做到記錄到每個論壇帖子的發帖時間,在論壇的板塊,頁數,發帖時間,發帖 id ,然後儲存起來,可以做到搜尋關鍵字快速定位到哪個論壇的那一頁,哪個帖子。而且這個爬蟲技術基本上要做到可以適配幾乎所有,可以說很多**和論壇。
如今呢?現在爬蟲都犯法了,今天早上醒來,看到大家都在微博**,尤其是技術圈裡的人,都在說這件事。
其實小公司,小**,沒有做反爬蟲的技術處理,爬蟲**就簡單多了,這個沒有什麼技術含量。而這個案例中被告人使用偽造 device_id 繞過伺服器的身份校驗,使用偽造 ua 及 ip 繞過伺服器的訪問頻率限制進行爬蟲說明是違背了內容提供者意願的。
說實話,做過爬蟲的都知道,常用的反爬蟲手段基本上都是這樣的,限制 ip 的訪問次數,檢查判斷是否有同乙個裝置在頻繁不斷請求(也就是檢查 device_id) 。
說白了最常見的反爬蟲手段有三種:
對於爬蟲者來講,可以非常方便的獲取別人辛辛苦苦收集和整理的資訊,內容等,但是大量的爬蟲也可能會給內容提供者的**和伺服器造成重大的壓力,因為有些暴力爬蟲者,不管三七二十一,頻繁請求別人的伺服器,導致伺服器壓力過大。
(來自網路,侵刪)
在這起案件中,法官認為:
在資訊時代,「爬蟲」 技術是一種常見的資料抓取技術,最常用的領域是搜尋引擎,該技術的有效使用有利於資料的共享和分析、造就了網際網路生態的繁榮,但並不意味該技術的使用沒有邊界。法官在此提醒網際網路行業的從業人員,必須在法律的框架之內合理使用該技術,違反法律規定利用該技術非法獲取資料可能構成犯罪。所以這起案件給我們的提示和警醒就是:
要善用爬蟲,不要爬蟲具有版權和原創的知識,內容,產品,更不要傳播。
要慎用爬蟲,不要使用爬蟲技術去獲取違背內容提供者意願的資訊。
要對用爬蟲,不要暴力使用爬蟲技術,給別人的伺服器造成壓力和損害。
尤其是利用爬蟲技術獲取資訊去獲利,去商用的人和企業,尤其是同行之間競爭的人,要小心了,一旦被抓到,這個案例就是乙個很好的例子。
爬蟲與反爬蟲大戰
爬蟲與發爬蟲的廝殺,一方為了拿到資料,一方為了防止爬蟲拿到資料,誰是最後的贏家?爬蟲 自動獲取 資料的程式 反爬蟲 使用技術手段防止爬蟲程式爬取資料 誤傷 反爬蟲技術將普通使用者識別為爬蟲,這種情況多出現在封ip中,例如學校網路 小區網路再或者網路網路都是共享乙個公共ip,這個時候如果是封ip就會導...
爬蟲 07 反爬蟲
回到頂部 爬蟲和反爬蟲基本概念 爬蟲 自動獲取 資料的程式,關鍵是批量的獲取。反爬蟲 使用技術手段防止爬蟲程式的方法。誤傷 反爬蟲技術將普通使用者識別為爬蟲,如果誤傷過高,效果再高也不能用。成本 反爬蟲需要的人力和機器成本。攔截 成功攔截爬蟲,一般攔截率越高,誤傷率越高。反爬蟲的目的 初級爬蟲 簡單...
爬蟲與反爬
通過user agent客戶端標識來判斷是不是爬蟲 解決方法 封裝請求頭 user agent 封ip解決方法 設定 ip 通過訪問頻率來判斷是否是非人類請求 解決方法 設定爬取間隔和爬取策略 驗證碼解決方法 識別驗證碼 資料通過前端js非同步獲取 解決方法 1.通過selenium phantom...