搜尋引擎初步了解

剛剛了解了搜尋引擎技術實現的原理，大致分為三部分--資訊的採集、資訊的儲存及資訊的檢索。

先說採集部分，我們所有的資訊的採集部分是有乙個叫做道網路蜘蛛（web spider）的乙個技術實現的，舉例來說，當使用者提交他要檢索的資訊後，引擎將依據他的提交資訊先進行分析，而在進行網路爬蟲搜尋之前，首先應對資訊進行分析，我以英文為例（中文還沒研究，貌似很複雜），譬如使用者輸入：students should be allowed to go out with their friends,but not allowed to drink beer.那麼我們首先應對它的文字進行拆解，這部分叫做分詞，包括1，將語句分詞。2，將標點去除。3，去除停詞（stop word）。所謂停詞就是語言中最為普通的一些單詞，譬如a、this、the、is 等等。這樣就整個句子分詞之後就剩下了詞元（token）。

那麼源語句就剩下了「students allowed go their」了。但是者仍舊有個問題，那就是在英文中語態要有很多種的，那麼allowed這個單詞如果只是這樣被提交將很難被搜尋到，所以下一步就是對語態的轉換比如：大寫要轉換為小寫，將單詞縮減為詞根。

搜尋引擎（search engines）技術，其實不單單只是檢索那麼簡單。

搜尋引擎初步了解

了解搜尋引擎技術

搜尋引擎索引

MySQL搜尋引擎程式 mysql搜尋引擎

搜尋引擎初步了解

了解搜尋引擎技術

搜尋引擎 索引

MySQL搜尋引擎程式 mysql搜尋引擎

相關推薦

搜尋引擎索引