1、網路爬蟲結構
網路爬蟲把網路分為5個部分:
(5不可知網頁集合:即爬蟲無法獲取的網頁,而且這部分網頁佔較大比例
2、爬蟲分類
(1批量型
有明確抓取範圍和目標,達到目標停止抓取,目標可以使網頁輸也可以是時間量。
(2增量型
會保持不斷的抓取2、爬蟲分類
(1批量型
有明確抓取範圍和目標,達到目標停止抓取,目標可以使網頁輸也可以是時間量。
(2增量型
會保持不斷的抓取,並且對已抓取到網頁定期更新
(3垂直型爬蟲
抓取特定主題或特定行業內容額網頁
3、爬蟲的特性
(1高效能、良好的演算法與資料結構使爬蟲能夠高效的獲取大量url
(2可擴充套件性、根據需求能對抓取任務和爬蟲數量動態變換
(3健壯性、爬蟲要有處理異常情況的能力
(4友好性、保護**的部分私密性,減少被抓取**的網路負載
0
給主人留下些什麼吧!~~
搜尋引擎 網路爬蟲
原文出自 瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選...
搜尋引擎 網路爬蟲
5 多執行緒 主要目的減少cpu資源的浪費 通過網路爬蟲獲取網域名稱,得到網域名稱之後,查詢,對比,存到資料庫中,更新 拿新資訊,將一些訪問量大的資訊存入快取中 6 一般伺服器為30 40個執行緒 7 seo 搜尋排名優化技術 8 執行緒池 代替我們管理執行緒,相當於乙個執行緒框架,執行緒池中有乙個...
搜尋引擎 網路爬蟲
瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選接。各個程...