Python爬蟲自學筆記基礎篇

爬蟲通過編寫程式來模擬瀏覽器上網，讓其去網際網路上抓取資料。

一般用於抓取頁面上特定的資料，並運用各種資料分析手段來使資料體現使用價值。

爬蟲本身在法律中是不被禁止的，但爬取資料具有違法風險。

一般的搜尋引擎都具有自己的抓取系統，這樣的爬取是被支援的。

但如搶票爬蟲等損害他人利益的爬蟲即為惡意爬蟲。惡意爬蟲一般體現在：

爬蟲干擾被訪問**的正常運營。

爬蟲抓取了受到法律保護的特定型別的資料或資訊。

在編寫爬蟲的過程中需注意的事項：

時常優化程式，不要干擾被訪問**的正常執行。

傳播爬取的資料時需審查抓取到的內容，發現了涉及使用者隱私/商業機密等敏感內容，則需要及時停止爬取和傳播。

通用爬蟲

搜尋引擎抓取系統的重要組成部分。抓取的是一整張頁面

聚焦爬蟲

是建立在通用爬蟲的基礎之上，抓取的是頁面中特定的區域性內容。

增量式爬蟲

檢測**中資料更新的情況，只會抓取**中最新更新的資料。

「君子協議」

規定**能夠被爬取和不能夠被爬取的資料。但並未強制反爬。

訪問方法：**網域名稱/robots.txt

可以看到**不允許爬取（disallow）的目錄資料

在爬取資料時需要**嚴！格！遵！守！**robots協議

http/https協議：超文字傳輸協議

概念：伺服器與客戶端進行資料交換的形式，相當於一種語言。

http常用請求頭資訊(request headers)：

user-agent：表示請求載體的身份標識，是一組字串，包含如瀏覽器版本、作業系統版本等資訊。請求載體相當於當前瀏覽器。

connection：表示請求成功後是否斷開連線。包含『close』和『keep alive』兩種值。

常用相應頭資訊：

content-type：伺服器相應回客戶端的資料型別。

這段我也聽不太懂，就搬了老師講的話

概念：安全的http協議，涉及資料傳輸和互動中的資料加密。

加密方式：

對稱金鑰加密：加密流程如下：客戶端發起請求，並把資料進行加密，再把金鑰和密文同時傳送給伺服器，伺服器再進行解密。但如果請求被攔截，則攔截資訊的中間機構能輕易對密文進行解密。

非對稱金鑰加密：由伺服器端設定加密方式（公鑰），將加密方式傳送給客戶端，客戶端使用該加密方式將資料進行加密，加密後將密文傳送給伺服器端，伺服器端接收了密文後自行解密。缺點是加密方式的效率較低，影響通訊速度，且如果公鑰被中間機構攔截，中間機構會將金鑰進行篡改，再傳送給客戶端。

證書金鑰加密（https使用的加密方式）：伺服器設定公鑰，公鑰被提交到證書認證機構進行審核，證書認證機構是伺服器和客戶端都能夠信任的機構，該機構對公鑰進行數字簽名防偽，並將公鑰封裝到證書中，傳送給客戶端，客戶端使用該公鑰對資訊進行加密，再將密文傳送給客戶端。能夠避免非對稱金鑰加密的安全隱患。

Python爬蟲自學筆記 基礎篇