PYTHON爬蟲學習（一）基礎概念

通過編寫程式，模擬瀏覽器上網，然後讓其去網際網路上抓取資料的過程

–通用爬蟲：抓取系統的重要組成部分。抓取的是一整張頁面資料

–聚焦爬蟲：

建立在通用爬蟲的基礎上。抓取的是頁面中特定的區域性內容

–增量式爬蟲：

檢測**中資料更新的情況。只會抓取**中最新更新出來的資料

1.robots.txt協議：·1.http協議：

--概念：就是伺服器和客戶端進行資料互動的一種形式常用請求頭資訊： --user-agent: 請求載體的身份標識（什麼瀏覽器，機子型號等） --connection：請求完畢後，是斷開連線還是保持連線常用響應頭資訊： --content-type ：伺服器響應會客戶端的資料型別

2.https協議：

--安全的超文字協議（http）加密方式： --對稱金鑰加密 --非對稱金鑰加密 --*證書金鑰加密*

·對稱金鑰加密：

缺點：在傳輸的時候如果被連線，金鑰的資訊也會被攔截下來，從而看到裡面的加密資訊

·非對稱金鑰加密：

有兩把鎖，一把叫做私有金鑰，一把是公開金鑰，伺服器先告訴客戶端按照自己給出的公開金鑰進行加密處理，客戶端按照公開金鑰加密後，伺服器接收到資訊後再通過自己的私有金鑰進行解密。這樣的好處就是解密的鑰匙不會進行傳輸，也就不會被挾持

缺點：·效率低，處理負載

·公鑰也有可能被挾持，只要是傳送金鑰，就有被挾持的風險

·證書金鑰加密：

金鑰不需要傳輸，有數字簽名不會被篡改，非常安全

PYTHON爬蟲學習（一） 基礎概念