挑戰:
2.網頁質量。每乙個處理程序,如何能過全域性的考慮網頁的質量,因為他們彼此之間不知道對方存在,所以程序間了解的網頁重要性有區域性性。
3.通訊頻寬。為了解決上述問題,程序間需要通訊,然而隨著規模的加大,通訊花銷也變得異常的大。
如果解決了上述問題,則並行爬蟲要比單個爬蟲更有**力:
1.可擴充套件性。隨著規模的加大,單個爬蟲不可能完成整個網際網路頁面的抓取。並行都不太可能,哈哈。
2.基於網路地理分布的抓取。並行爬蟲中的任意乙個,只是抓取地理位置上相近的**。例如,德國的負責歐洲的,中國的負責亞洲的,這樣可以減小網路延遲。這樣的做法,也可以有效的減小網路頻寬負載。
基於地理位置的抓取,事後這些網頁也必須轉換到乙個所謂的central location,以協助建立乙個所謂的central index。但是,有很多辦法使得這個轉換的代價遠遠小於所謂的全網漫遊:
1.壓縮技術
2.只傳送本次跟上次的difference
3.根據central index的需求,只是傳送摘要。
爬蟲並行化
map使用 map函式包含了序列操作,引數傳遞和結果儲存的的一系列操作 匯入 from multiprocessing.dummy import pool pool pool 4 表示4執行緒 results pool.map 爬取函式,列表 附上簡單並行爬蟲的例子 author ding 多執行緒...
並行相關概念
1,北橋和南橋 北橋是電腦主機板上的一塊晶元,位於cpu插座邊,起連線作用。北橋是個人電腦主板晶元組兩枚大規模晶元中的一枚。北橋被用來處理高速訊號 通常處理cpu 處理器 ram 記憶體 agp埠或pci express和南橋晶元之間的通訊。一般來說,晶元組的名稱就是以北橋晶元的名稱來命名的,例如英...
python安裝之爬蟲相關安裝1
爬蟲新手 然後選擇命令提示符,進入cmd,轉到這個目錄下 按照自己的目錄轉 然後輸入 python setup.py install 進行安裝 由於我已經安裝成功,就沒有截圖了,反正如果你跳出了安裝,就說明安裝成功,然後你可以到idle或者你的python相關編譯軟體上去測試 如果你在安裝中失敗了,...