據中國網際網路絡資訊中心統計,目前搜尋引擎是僅次於電子郵件的第二大inter***的應用。搜尋引擎技術的研究與應用逾來逾廣,正成為計算機工業界和學術界爭相研究和開發的物件。
搜尋引擎雖然品種繁多、功能不一,但是它們的總體結構和基本的工作原理都是一樣的。
每個搜尋引擎都有三個部分組成: (1)在inter***上採集資訊的"機械人";(2)對採集到的資訊進行索引並建立索引庫的索引器;(3)完成使用者提交查詢請求的網頁檢索器。
圖1.1 搜尋引擎總體結構圖
1、"機械人"
"機械人"實際上是一些基於web的程式,通過請求web站點上的html網頁來對採集該html網頁,它遍歷指定範圍內的整個web空間,不斷從乙個網頁轉到另乙個網頁,從乙個站點移動到另乙個站點,將採集到的網頁新增到網頁資料庫中。"機械人"每遇到乙個新的網頁,都要搜尋它內部的所有鏈結,所以從理論上講,如果為"機械人"建立乙個適當的初始網頁集,從這個初始網頁集出發,遍歷所有的鏈結,"機械人"將能夠採集到整個web空間的網頁。
2、索引器
索引器負責將"機械人"在web空間採集到的資訊建立索引並存放在索引資料庫中,索引資料庫可以採用通用的大型資料庫,如oracle、sybase等,也可以自己定義檔案格式進行存放。為了保證索引資料庫資訊與web內容的同步,索引資料庫必須定時更新,更新頻率決定了搜尋結果的及時性,索引資料庫更新是通過啟動"機械人"對web空間重新搜尋來實現的。
3、網頁檢索器
搜尋引擎原理
乙個搜尋引擎由搜尋器 索引器 檢索器和使用者介面等四個部分組成。1.搜尋器 搜尋器的功能是在網際網路中漫遊,發現和蒐集資訊。它常常是乙個電腦程式,日夜不停地執行。它要盡可能多 盡可能快地蒐集各種型別的新資訊,同時因為網際網路上的資訊更新很快,所以還要定期更新已經蒐集過的舊資訊,以避免死連線和無效連線...
網路搜尋引擎
header abc 從http頭中搜尋abc。例 jboss伺服器 header jboss body abc 從html正文中搜尋abc。例 正文包含hacked by body hacked by port 443 查詢對應443埠的資產。例 查詢對應443埠的資產 ip 1.1.1.1 從i...
搜尋引擎營銷簡介
搜尋引擎營銷是什麼?其中自然搜尋的結果就是搜尋結果頁面,要讓您的 能夠出現在搜尋結果頁面較前面的位置,就需要進行搜尋引擎優化 或者搜尋引擎最佳化 搜尋引擎排名最佳優化 搜尋引擎排名最佳化 而搜尋結果裡,如果這個關鍵字有相關廣告,就還包括了關鍵字廣告鏈結。因此進行搜尋引擎營銷就是跟搜尋引擎優化與關鍵字...