第一章 引論
1.1 搜尋引擎概述
1.1.1 搜尋引擎定義:
(1)搜尋引擎指自動從網際網路蒐集資訊,經過一定整理以後,提供給使用者進行查詢的系統。
【維基百科】
(2)搜尋
引擎是指根據一定的策略、運用特定的電腦程式從網際網路上蒐集資訊,在對資訊進行組織和處理後,為使用者提供檢索服務,將使用者檢索相關的資訊展示給使用者的系統。
(3)一種用來在計算機網路,特別是在全球資訊網上檢索各種檔案的電腦程式。【wordnet】
因此,與其說搜尋引擎是乙個查詢系統,不如說它是乙個使用者定義的資訊聚合系統。
1.1.2 搜尋引擎分類
(3)元搜尋引擎:將使用者的索引詞提交給多個搜尋引擎根據其返回的查詢結果進行進一步篩選及重新排序,之後在返回給使用者;
代表**:www.webcrawler.com、
1.2搜尋引擎的主要需求
【快】反映搜尋引擎的查詢速度,一般的商用引擎反映速度在毫秒級;主要受分詞效果,索引庫的效率,分布查詢的處理功能和查詢快取的命中率影響。
【全】一般用查全率(recall)作為衡量檢索是否全面的度量指標,recall=n(索引出網頁數量)/m(包含索引資訊的全部網頁數量)*100%;主要取決於網頁索引庫中條目數量。
【準】一般以查準率(precision)作為衡量檢索是否準確的指標,precision=p(與查詢相關的網頁)/n(全部索引的網頁數)*100%;主要取決於網頁排序。
【穩】長期穩定提供服務。
【省】據美國哈佛大學物理學者研究以台式電腦在google**執行兩次搜尋,所製作的二氧化碳相當於煮一壺茶;主要考慮電能、頻寬、機器折舊。
1.3 搜尋引擎四大系統
搜尋引擎是通過一種特定規律的軟體跟蹤網頁的鏈結,從乙個鏈結爬到另外乙個鏈結,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為「蜘蛛」也被稱為「機械人」。搜尋引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或檔案的內容。
第二步:分析系統(抓取儲存)
搜尋引擎是通過蜘蛛跟蹤鏈結爬行到網頁,並將爬行的資料存入原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的html是完全一樣的。搜尋引擎蜘蛛在抓取頁面時,也做一定的重複內容
檢測,一旦遇到權重很低的
**上有大量抄襲、採集或者複製的內容,很可能就不再爬行。
第三步:索引系統(預處理)
搜尋引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
⒈提取文字
⒉中文分詞
⒊去停止詞
5.正向索引
6.倒排索引
7.鏈結關係計算
8.特殊檔案處理
第四步:查詢系統(排名)
2.1 爬蟲發展史
【世界上第乙個爬蟲】又mit的學生馬休 格雷與2023年寫成,主要用於抓去全球資訊網網頁資訊。
【應用於搜尋引擎】2023年michael mauldin將乙個蜘蛛程式寫入索引程式,創立搜素引擎公司lycos
《走進搜尋引擎》
作 者 梁斌 同作者作品 作譯者介紹 出 版 社 電子工業出版社 書 號 9787121049224 上架時間 2007 10 15 出版日期 2007 年10月 開 本 16開 頁 碼 272 版 次 1 1 進入高薪搜尋行業的敲門磚.在搜尋行業當中技術高階的不二法門 追求更完美地應用搜尋引擎的錦...
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...
MySQL搜尋引擎程式 mysql搜尋引擎
mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...