剛剛了解了搜尋引擎技術實現的原理,大致分為三部分--資訊的採集、資訊的儲存及資訊的檢索。
先說採集部分,我們所有的資訊的採集部分是有乙個叫做道網路蜘蛛(web spider)的乙個技術實現的,舉例來說,當使用者提交他要檢索的資訊後,引擎將依據他的提交資訊先進行分析,而在進行網路爬蟲搜尋之前,首先應對資訊進行分析,我以英文為例(中文還沒研究,貌似很複雜),譬如使用者輸入:students should be allowed to go out with their friends,but not allowed to drink beer.那麼我們首先應對它的文字進行拆解,這部分叫做分詞,包括1,將語句分詞。2,將標點去除。3,去除停詞(stop word)。所謂停詞就是語言中最為普通的一些單詞,譬如a、this、the、is 等等。這樣就整個句子分詞之後就剩下了詞元(token)。
那麼源語句就剩下了「students allowed go their」了。但是者仍舊有個問題,那就是在英文中語態要有很多種的,那麼allowed這個單詞如果只是這樣被提交將很難被搜尋到,所以下一步就是對語態的轉換比如:大寫要轉換為小寫,將單詞縮減為詞根。
搜尋引擎(search engines)技術,其實不單單只是檢索那麼簡單。
了解搜尋引擎技術
搜尋引擎 了解搜尋引擎技術 分布式技術 當搜尋引擎處理資料達到一定規模時,為了提高系統的效能,必須採用分布式技術。crawler通過多個伺服器互相合作,提高資料採集的速度。indexer在生成索引資料時通過並行演算法,在不同機器上同時進行。searcher也可以在不同的機器上進行同時查詢,提高速度。...
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...
MySQL搜尋引擎程式 mysql搜尋引擎
mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...