通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程
–通用爬蟲:抓取系統的重要組成部分。抓取的是一整張頁面資料
–聚焦爬蟲:
建立在通用爬蟲的基礎上。抓取的是頁面中特定的區域性內容
–增量式爬蟲:
檢測**中資料更新的情況。只會抓取**中最新更新出來的資料
1.robots.txt協議:·1.http協議:
--概念:就是伺服器和客戶端進行資料互動的一種形式
常用請求頭資訊:
--user-agent: 請求載體的身份標識(什麼瀏覽器,機子型號等)
--connection:請求完畢後,是斷開連線還是保持連線
常用響應頭資訊:
--content-type : 伺服器響應會客戶端的資料型別
2.https協議:
--安全的超文字協議(http)
加密方式:
--對稱金鑰加密
--非對稱金鑰加密
--*證書金鑰加密*
·對稱金鑰加密:
缺點:在傳輸的時候如果被連線,金鑰的資訊也會被攔截下來,從而看到裡面的加密資訊
·非對稱金鑰加密:
有兩把鎖,一把叫做私有金鑰,一把是公開金鑰,伺服器先告訴客戶端按照自己給出的公開金鑰進行加密處理,客戶端按照公開金鑰加密後,伺服器接收到資訊後再通過自己的私有金鑰進行解密。這樣的好處就是解密的鑰匙不會進行傳輸,也就不會被挾持
缺點:·效率低,處理負載
·公鑰也有可能被挾持,只要是傳送金鑰,就有被挾持的風險
·證書金鑰加密:
金鑰不需要傳輸,有數字簽名不會被篡改,非常安全
Python 爬蟲 概念基礎
通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程 爬蟲在使用中的分類 通用爬蟲 抓取系統的重要主城部分,抓取的是整張頁面的資料。聚焦爬蟲 建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。增量式爬蟲 檢測 中資料更新的情況,只會抓取 中最新更新的資料。反爬機制 各個 通過制定相應的策略或技...
一 python爬蟲學習 爬蟲基本概念
例如 url 專業一些的叫法是統一資源定位符 uniform resource locator 它的一般格式如下 帶方括號的為可選項 protocol hostname port path parameters query fragment url 的格式主要由前個三部分組成 443 這兩個url都...
爬蟲基礎概念
1.通過ua識別爬蟲 有些爬蟲的ua是特殊的,與正常瀏覽器的不一樣,可通過識別特徵ua,直接封掉爬蟲請求 2.設定ip訪問頻率,如果超過一定頻率,則封掉爬蟲請求 3.彈出驗證碼 如果輸入正確的驗證碼,則放行,如果沒有輸入,則拉入禁止一段時間,如果超過禁爬時間,再次觸發驗證碼,則拉入黑名單。當然根據具...