在大資料的背景下,我們需要網路上的金融,醫學,新聞等資料進行研究時,如果人工的手段去獲取這些資料的話,需要大量的時間和精力。為此網路爬蟲的產生為我們解決了這些問題。網路爬蟲可以自動的瀏覽網路中的資訊,當然瀏覽資訊的時候需要按照我們制定的規則去瀏覽,這些規則我們將其稱為網路爬蟲的演算法。使用python可以方便地編寫爬蟲程式,進行網際網路資訊地自動檢索。
如上圖:網路爬蟲的組成包括控制節點,爬蟲節點,資源庫構成。
網路爬蟲按照實現的技術和結構可以分為通用爬蟲網路(url佇列,爬蟲網頁),聚焦爬蟲網路(比通用爬蟲網路多了url過濾),增量爬蟲網路(只對更新的地方改變),深度爬蟲網路(提交表單胡才能看到的網頁的爬取)等網路爬蟲型別。在實際的爬蟲中通常是這幾類爬蟲網路的組合體。
爬蟲的出現,可以在一定程度上代替手工訪問網頁,所以,原先我們需要人工去訪問網際網路資訊的操作,現在可以用爬蟲網路去自動實現,這樣可以更高效率地利用網際網路中地有效資訊。
檢索是一種行為,而索引是一種屬性。如果有乙個好的索引,則可以提高檢索的效率,如果沒有索引,檢索的效率會很低。可以把索引理解成乙個目錄。
使用者爬蟲網路是網路爬蟲網路的其中一種。所謂使用者爬蟲網路,即專門用來爬取網際網路中使用者資料的一種爬蟲。由於網際網路中的使用者資訊,相對來說是比較敏感的資料資訊,所以,使用者爬蟲的利用價值也比較高。
Python爬蟲 理論基礎
其實爬蟲沒有大家想象的那麼複雜,有時候也就是幾行 的事兒,千萬不要把自己嚇倒了。這篇就清晰地講解一下利用python爬蟲的理論基礎。首先說明爬蟲分為三個步驟,也就需要用到三個工具。利用網頁解析器解析需要的url,進而進行匹配。url管理器有三大類。記憶體 以set形式儲存在記憶體中 儲存在關係型資料...
TCP IP理論基礎
一 tcp ip的分層模型 osi協議參考模型,它是基於國際標準化組織 iso 的建議發展起來的,它分為7個層次 應用層 表示層 會話層 傳輸層 網路層 資料鏈路層及物理層。這個7層的協議模型雖然規定得非常細緻和完善,但在實際中卻得不到廣泛的應用,其重要的原因之一就在於它過於複雜。但它仍是此後很多協...
TCP IP理論基礎
linux中網路棧的介紹一般分為四層的internet模型。分別為應用層 傳輸層 網際層和網路介面。tcp ip實際上是乙個協同工作的通訊家族,為網路資料通訊提供通路。為方便將tcp ip協議族大致上分為三部分 1.internet協議 ip 這一部分也稱為網路層。主要包括ip icmp和arp。其...