什麼是爬蟲:
– 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。
爬蟲的價值:
– 實際應用
– 就業
爬蟲是否違法?
在法律中是不被禁止的
具有違法風險
爬蟲帶來的風險可以體現在如下2方面:
如何避免進入局子: 優化自己的程式,避免干擾被訪問**的正常執行
在使用,傳播爬取到的資料時,審查抓取到的內容,如果發現了涉及到使用者隱私,或商業機密等敏感內容,需要及時停止爬取或傳播
爬蟲在使用場景中的分類:
通用爬蟲: 抓取系統重要組成部分。抓取的是一整張頁面資料。
爬蟲的矛與盾:
robots.txt協議:(反爬)
君子協議。規定了**中哪些資料可以被爬蟲爬取哪些資料不可以被爬取。
http協議(hypertext transfer protocol)超文字傳輸協議
概念:伺服器和客戶端進行資料互動的一種形式。
常用請求頭資訊
– user-agent:請求載體的身份標識
– connection:請求完畢後,是斷開連線還是保持連線
常用響應頭資訊
– content-type:伺服器響應回客戶端的資料型別
https協議
– 安全的超文字傳輸協議(資料加密)
加密方式
對稱秘鑰加密
非對稱秘鑰加密
證書秘鑰加密
爬蟲 1 爬蟲簡介及基礎庫
學習爬蟲,第一步便是要能夠模擬瀏覽器向伺服器發出請求。這一基礎操作可以借助 python 的庫來幫助我們實現,我們只需要學會這些庫的使用即可。最基礎的 http 庫有 注 在 python2 中,有 urllib 和 urllib2 兩個庫來實現 http 請求的傳送。而在 python3 中,ur...
爬蟲 一 爬蟲簡介
很多人都將網際網路比喻成一張非常大的網,將世界連線起來。如果說網際網路是一張網,那麼爬蟲就像在網上爬的小蟲子,通過網頁的鏈結位址來尋找網頁,通過特定的搜尋演算法來確定路線,通常從 的某乙個頁面開始,讀取該網頁的內容,找到該網頁中的其他鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,就這樣一直迴圈下去,...
Scrapy爬蟲 二 爬蟲簡介
列幾個簡單的例子,看看就行 urllib庫 基於python3.5 encoding utf 8 import urllib.request def download data url response urllib.request.urlopen url print response.getcod...