搜尋引擎與網路爬蟲簡述

2021-07-22 09:25:29 字數 1470 閱讀 8478

一、搜尋引擎

搜尋引擎是指根據一定的策略、運用特定的電腦程式蒐集網際網路上的資訊,在對資訊進行組織和處理後,將處理後的資訊展示給使用者。

垂直搜尋引擎則是針對某一行業的專業所搜引擎,是普通搜尋引擎的細化和延伸。主要通過對網頁庫的某類資訊進行整合,定向分欄位抽取出需要的資料進行處理、返回給使用者。

二、

搜尋引擎的流程

1、搜尋引擎將網頁大量抓取下來,通過分析器解析,將有價值的資料入庫,檢索器(索引器)對有效的內資料建立檢索

2、客戶搜尋介面——>提交查詢——>檢索器返回結果呈現給使用者

三、搜尋引擎的主要構件

搜尋器——分析器——索引器——檢索器——使用者介面

四、網路爬蟲

使用者搜尋的大部分資料均來自於網際網路,那通過什麼方式才能將這些海量資料準確快速的返回給查詢使用者。其中關鍵關節就是資料抓取。

例如heritrix等爬蟲框架的一般步驟就是選擇乙個爬取url-開始爬取-分析爬取結果-選擇新的相關url新增到爬取url佇列-標示已爬取url和將重複爬取的url-迴圈操作。

具體實現主要是初始化乙個執行緒池,分別開啟爬取前線程,爬取鏈執行緒,執行器,執行後執行緒,將執行後的結果輸出到schedule,再另起乙個新的schedule繼續並行執行。

五、

主題網路爬蟲

與普通網路爬蟲相比,主題網路爬蟲具有更廣泛的應用,它是指盡可能快的爬取、採集盡可能多的與主題相關的網頁。主題網路爬蟲可通過對整個web按照主題分塊採集,將不同採集結果整合到一起,以提高整個web採集的覆蓋率和網頁的利用率。

通用網路爬蟲的目標即在於盡可能多的採集頁面資訊,而在爬取過程中並不太在意頁面採集的順序和被採集頁面的相關主題。這需要消耗非常多的系統資源消耗和網路頻寬。而主題網路爬取則要求本身能盡可能快的爬取、採集盡可能多的與主題相關的網頁。

六、

主題爬取的關鍵過程

1、定義主題,確定抓取目標

2、根據一定的網頁分析演算法過濾與主題無關的鏈結

3、保留與主題相關的鏈結放入待抓取的url佇列中,根據一定的搜尋策略從佇列中選擇下一步要抓取的url,並逐漸深入爬取,直到爬取到目的結果。

4、怎樣決定待爬取url的訪問順序?主題爬取的測序並非簡單的深度優先、廣度優先,而是按照相關度的大小排序,相關度大的url優先爬取。

5、如何判斷乙個網頁是否與主題相關?可通過文字挖掘技術,獲取待爬行url的文字內容確定該url是否與主題相關。

6、所有被爬取過的網頁將被系統儲存起來,進行分析、過濾、並建立索引,對後續抓取過程進行反饋。

搜尋引擎 網路爬蟲

原文出自 瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選...

搜尋引擎 網路爬蟲

5 多執行緒 主要目的減少cpu資源的浪費 通過網路爬蟲獲取網域名稱,得到網域名稱之後,查詢,對比,存到資料庫中,更新 拿新資訊,將一些訪問量大的資訊存入快取中 6 一般伺服器為30 40個執行緒 7 seo 搜尋排名優化技術 8 執行緒池 代替我們管理執行緒,相當於乙個執行緒框架,執行緒池中有乙個...

搜尋引擎 網路爬蟲

瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選接。各個程...