爬蟲基礎簡介

什麼是爬蟲：

– 通過編寫程式，模擬瀏覽器上網，然後讓其去網際網路上抓取資料的過程。

爬蟲的價值:

– 實際應用

– 就業

爬蟲是否違法？

在法律中是不被禁止的

具有違法風險

爬蟲帶來的風險可以體現在如下2方面：

如何避免進入局子：優化自己的程式，避免干擾被訪問**的正常執行

在使用，傳播爬取到的資料時，審查抓取到的內容，如果發現了涉及到使用者隱私，或商業機密等敏感內容，需要及時停止爬取或傳播

爬蟲在使用場景中的分類：

通用爬蟲：抓取系統重要組成部分。抓取的是一整張頁面資料。

爬蟲的矛與盾：

robots.txt協議：（反爬）

君子協議。規定了**中哪些資料可以被爬蟲爬取哪些資料不可以被爬取。

http協議（hypertext transfer protocol）超文字傳輸協議

概念：伺服器和客戶端進行資料互動的一種形式。

常用請求頭資訊

– user-agent：請求載體的身份標識

– connection：請求完畢後，是斷開連線還是保持連線

常用響應頭資訊

– content-type：伺服器響應回客戶端的資料型別

https協議

– 安全的超文字傳輸協議（資料加密）

加密方式

對稱秘鑰加密

非對稱秘鑰加密

證書秘鑰加密

爬蟲 1 爬蟲簡介及基礎庫

學習爬蟲，第一步便是要能夠模擬瀏覽器向伺服器發出請求。這一基礎操作可以借助 python 的庫來幫助我們實現，我們只需要學會這些庫的使用即可。最基礎的 http 庫有注在 python2 中，有 urllib 和 urllib2 兩個庫來實現 http 請求的傳送。而在 python3 中，ur...

爬蟲一爬蟲簡介

很多人都將網際網路比喻成一張非常大的網，將世界連線起來。如果說網際網路是一張網，那麼爬蟲就像在網上爬的小蟲子，通過網頁的鏈結位址來尋找網頁，通過特定的搜尋演算法來確定路線，通常從的某乙個頁面開始，讀取該網頁的內容，找到該網頁中的其他鏈結位址，然後通過這些鏈結位址尋找下乙個網頁，就這樣一直迴圈下去，...

Scrapy爬蟲二爬蟲簡介

列幾個簡單的例子，看看就行 urllib庫基於python3.5 encoding utf 8 import urllib.request def download data url response urllib.request.urlopen url print response.getcod...

爬蟲基礎簡介

爬蟲 1 爬蟲簡介及基礎庫

爬蟲 一 爬蟲簡介

Scrapy爬蟲 二 爬蟲簡介

相關推薦

爬蟲一爬蟲簡介

Scrapy爬蟲二爬蟲簡介