(1) 不同領域、不同背景的使用者往往具有不同的檢索目的和需求,通用搜尋引擎所返回的結果包含大量使用者不關心的網頁。
(2) 通用搜尋引擎的目標是盡可能大的網路覆蓋率,有限的搜尋引擎伺服器資源與無限的網路資料資源之間的矛盾將進一步加深。
(4) 通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資訊提出的查詢。
1 聚焦爬蟲工作原理及關鍵技術概述
相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題:
(1) 對抓取目標的描述或定義;
(2) 對網頁或資料的分析與過濾;
(3) 對url的搜尋策略。
抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵所在。這兩個部分的演算法又是緊密相關的。
2 抓取目標描述
現有聚焦爬蟲對抓取目標的描述可分為基於目標網頁特徵、基於目標資料模式和基於領域概念3種。
(1)預先給定的初始抓取種子樣本;
(2)預先給定的網頁分類目錄和與分類目錄對應的種子樣本,如yahoo!分類結構等;
(3)通過使用者行為確定的抓取目標樣例,分為:
a) 使用者瀏覽過程中顯示標註的抓取樣本;
b) 通過使用者日誌挖掘得到訪問模式及相關樣本。
其中,網頁特徵可以是網頁的內容特徵,也可以是網頁的鏈結結構特徵,等等。
現有的聚焦爬蟲對抓取目標的描述或定義可以分為基於目標網頁特徵,基於目標資料模式和基於領域概念三種。
基於目標網頁特徵的爬蟲所抓取、儲存並索引的物件一般為**或網頁。具體的方法根據種子樣本的獲取方式可以分為:(1)預先給定的初始抓取種子樣本;(2)預先給定的網頁分類目錄和與分類目錄對應的種子樣本,如yahoo!分類結構等;(3)通過使用者行為確定的抓取目標樣例。其中,網頁特徵可以是網頁的內容特徵,也可以是網頁的鏈結結構特徵,等等。
設定rss爬蟲重新訪問的5個級別:
level[1]=20 minutes
level[2]=200 minutes
level[3]=1000 minutes
level[4]=2000 minutes
level[5]=10000 minutes
設定rss 源的權重為從0到5
rssrank=0 ~ 5
要點:1.每乙個rss 源對應乙個時間t[i],這個時間取整就得到 level 。例如,這個時間是250分鐘,那麼就取level[2],就是每隔200分鐘抓取一次。
2.每一次這個對應時間都是改變的,根據這個rss源有沒有變化。
3.當更新了,這個時間就除以1.2 ,當未更新,這個時間就乘以1.2。
4.rssrank起到調整更新時間級別的規則。例如當乙個rss在level[5],但是它的rssrank是3,那麼更新時間調整為level[5-3] = level[2] = 200分鐘。
總體公式:
t[i+1] = t[i] [(1.2)(1.2)]
t = level[ antilevel[t[i][(1.2)(1.2)]] - rssrank]
經過長時間的執行,t序列都變動非常穩定。
網路爬蟲技術
網路爬蟲技術 1 不同領域 不同背景的使用者往往具有不同的檢索目的和需求,通用搜尋引擎所返回的結果包含大量使用者不關心的網頁。2 通用搜尋引擎的目標是盡可能大的網路覆蓋率,有限的搜尋引擎伺服器資源與無限的網路資料資源之間的矛盾將進一步加深。4 通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資...
網路爬蟲技術
1 不同領域 不同背景的使用者往往具有不同的檢索目的和需求,通用搜尋引擎所返回的結果包含大量使用者不關心的網頁。2 通用搜尋引擎的目標是盡可能大的網路覆蓋率,有限的搜尋引擎伺服器資源與無限的網路資料資源之間的矛盾將進一步加深。4 通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資訊提出的查詢。...
Python網路爬蟲(瀏覽器偽裝技術)
基本格式 欄位名 字段值 2 欄位2 accept encoding gzip,deflate 這一行欄位的資訊表示瀏覽器可以支援gzip,deflate等壓縮編碼。3 欄位3 accept language zh cn,zh q 0.8,en us q 0.5,en q 0.3 這一行欄位的資訊表...