上一節學習了requests庫,這一節學習robots協議
宣告robots協議,一般放在**的根目錄下,robots.txt檔案
京東robots鏈結
user-agent: *disallow: /?*
disallow: /pop/.html
disallow: /pinpai/.html?*
user-agent: etaospider
disallow: /
user-agent: huihuispider
disallow: /
user-agent: gwdangspider
disallow: /
user-agent: wochachaspider
disallow: /
qq的robots協議
qq新聞robots協議
國家教育部無robots協議
**不提供robots協議則全網可以隨意爬取
爬蟲協議說明:
user-angent: *表示所有使用者
disallow:/表示所有目錄不可爬取
python網路爬蟲(四) 資訊標記與資訊提取
方式 說明應用領域 xml最早的通用資訊標記語言,可擴充套件性好,但繁瑣 internet上資訊的互動與傳遞 json 資訊有型別,適合程式處理 js 比xml簡潔 移動應用雲端和節點的資訊通訊,無注釋 yaml 資訊無型別,文字資訊比例最高,可讀性好 各類系統的配置檔案,有注釋易讀 二.資訊提取的...
Python網路爬蟲與資訊提取MOOC學習 預備
一 ide 概念 integrated development environment整合開發環境 提供了程式開發環境的應用程式,一般包括 編輯器 編譯器 偵錯程式和圖形使用者介面等工具。整合了 編寫功能 分析功能 編譯功能 除錯功能等一體化的開發軟體服務套。二 python的ide分類 文字工具類...
MOOC Python網路爬蟲與資訊提取Week1
常見異常 response 返回所有的網頁內容 r.raise for status 如果不是200,產生異常requests.httperror import requests def gethtmltext url try r requests.get url,timeout 30 r.raie...