爬蟲高階之路 1 理論基礎

在大資料的背景下，我們需要網路上的金融，醫學，新聞等資料進行研究時，如果人工的手段去獲取這些資料的話，需要大量的時間和精力。為此網路爬蟲的產生為我們解決了這些問題。網路爬蟲可以自動的瀏覽網路中的資訊，當然瀏覽資訊的時候需要按照我們制定的規則去瀏覽，這些規則我們將其稱為網路爬蟲的演算法。使用python可以方便地編寫爬蟲程式，進行網際網路資訊地自動檢索。

如上圖：網路爬蟲的組成包括控制節點，爬蟲節點，資源庫構成。

網路爬蟲按照實現的技術和結構可以分為通用爬蟲網路(url佇列，爬蟲網頁)，聚焦爬蟲網路（比通用爬蟲網路多了url過濾），增量爬蟲網路（只對更新的地方改變），深度爬蟲網路（提交表單胡才能看到的網頁的爬取）等網路爬蟲型別。在實際的爬蟲中通常是這幾類爬蟲網路的組合體。

爬蟲的出現，可以在一定程度上代替手工訪問網頁，所以，原先我們需要人工去訪問網際網路資訊的操作，現在可以用爬蟲網路去自動實現，這樣可以更高效率地利用網際網路中地有效資訊。

檢索是一種行為，而索引是一種屬性。如果有乙個好的索引，則可以提高檢索的效率，如果沒有索引，檢索的效率會很低。可以把索引理解成乙個目錄。

使用者爬蟲網路是網路爬蟲網路的其中一種。所謂使用者爬蟲網路，即專門用來爬取網際網路中使用者資料的一種爬蟲。由於網際網路中的使用者資訊，相對來說是比較敏感的資料資訊，所以，使用者爬蟲的利用價值也比較高。

爬蟲高階之路 1 理論基礎

Python爬蟲理論基礎

TCP IP理論基礎

TCP IP理論基礎

爬蟲高階之路 1 理論基礎

Python爬蟲 理論基礎

TCP IP理論基礎

TCP IP理論基礎

相關推薦

Python爬蟲理論基礎