搜尋引擎 (一) 緒論

2022-08-05 04:03:11 字數 468 閱讀 5265

自己對搜尋引擎有一些興趣,而且也選修了這門課,看到的搜尋引擎用到的知識還是挺豐富有深度的,所以準備寫個系列的文章,參考《現代資訊檢索》(貝佐·耶茨)和一些其他教材。

搜尋引擎中用到的技術

由於搜尋引擎用到的技術實在太多,所以不能一一枚舉。並且事實上中文部落格中搜尋引擎的知識主要集中在基礎的知識上,所以搜尋引擎的知識要講的話就不會再重複太多講過的知識,而是更加系統的專案上了。

關於搜尋引擎計畫要開始以下的部分:

1. 索引和倒排索引、雜湊表、跳表

2. 文字分類

3. page-rank演算法

4. 大規模爬蟲、去重用的區域性敏感雜湊

5. 社交網路、協同過濾

6. 查詢策略

7. 為什麼叫做搜尋引擎,為什麼不叫資料庫?

8. 圖聚類

這些只是一些想到的部分,以後不一定要按照順序來寫。

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...

SEO 搜尋引擎 一

一 蒐集器 四 檢索器 檢索器的功能是根據使用者的查詢在索引庫中快速檢出文件,進行文件與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種使用者相關性反饋機制。檢索器常用的資訊檢索模型有集合理論模型 代數模型 概率模型和混合模型等多種,可以查詢到文字資訊中的任意字詞,無論出現在標題還是正文中。檢...