網路爬蟲的尺寸
網路爬蟲的「效能騷擾」
web伺服器預設接收人類訪問
受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷
網路爬蟲的法律風險
伺服器上的資料有產權歸屬
網路爬蟲獲取資料後牟利將帶來法律風險
網路爬蟲的隱私洩露
網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料
從而洩露個人隱私
網路爬蟲引發的問題
效能騷擾
法律風險
隱私洩露
網路爬蟲的限制
• **審查:判斷user‐agent進行限制
檢查來訪http協議頭的user‐agent域,只響應瀏覽器或友好爬蟲的訪問
• 發布公告:robots協議
告知所有爬蟲**的爬取策略,要求爬蟲遵守
robots協議
robots exclusion standard,網路爬蟲排除標準
[plain]view plain
copy
user‐agent: *
disallow: /?*
disallow: /pop/*.html
disallow: /pinpai/*.html?*
user‐agent: etaospider
disallow: /
user‐agent: huihuispider
disallow: /
user‐agent: gwdangspider
disallow: /
user‐agent: wochachaspider
disallow: /
[plain]view plain
copy
# 注釋,*代表所有,/代表根目錄
user‐agent: *
disallow: /
robots協議基本語法
案例:真實的robots協議
(無robots協議)
實際操作中,該如何遵守robots協議?
robots協議的使用
網路爬蟲:
自動或人工識別robots.txt,再進行內容爬取
約束性:
robots協議是建議但非約束性,網路爬蟲可以不遵守,但存在法律風險
對robots協議的理解
網路爬蟲的實現
網路爬蟲常常被人所忽略,特別是和搜尋引擎的光環相比,它似乎有些暗淡無光。我很少看見有詳細介紹爬蟲實現的文章或者文件。然而,爬蟲其實是非常重要的乙個系統,特別是在今天這個資料為王的時代。如果你是乙個剛剛開始的公司或者專案,沒有任何原始的資料積累,那麼通過爬蟲去internet上找到那些有價值的資料再進...
網路爬蟲的故事
爬蟲是什麼 蜘蛛是生物界中很普通的小蟲子,但是它卻做了一件令人非常佩服的事情 織網捕物。蜘蛛經常會在自己所織的網上捕獲食物,而這一行為就如同我們人類想在關係複雜的網際網路上獲取我們想要的資料。人類是非常聰明和偷懶的,他是不會自己去浩海如煙的網際網路中獲取 食物 的。那麼為了能夠更高效的獲取資料,人類...
網路爬蟲技術
網路爬蟲技術 1 不同領域 不同背景的使用者往往具有不同的檢索目的和需求,通用搜尋引擎所返回的結果包含大量使用者不關心的網頁。2 通用搜尋引擎的目標是盡可能大的網路覆蓋率,有限的搜尋引擎伺服器資源與無限的網路資料資源之間的矛盾將進一步加深。4 通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資...