搜尋引擎分詞演算法介紹

2021-04-02 04:23:54 字數 1186 閱讀 9549

原文:http://sf.hit.edu.cn/bbs/read.php?fid=1&tid=52&fpage=1

搜尋引擎分詞演算法介紹

自動分詞是基於字串匹配的原理進行的;所謂自動分詞方法,指的是漢字字串匹配

的進行方式。

1. 最大匹配法 亦稱mm法;其基本思想是這樣的,假設自動分詞詞典(或詞庫)中的最

長詞條是i個字,則取被處理材料當前字串序列中的前i個字作為匹配字段,查詢詞

典,若詞典中存在這樣的乙個i字詞,則匹配成功,匹配欄位被作為乙個詞切分出來;

如果在詞典中找不到這樣乙個i字詞,則匹配失敗,匹配字段去掉最後乙個字,剩下的

字段重新進行匹配,如此進行下去,直到匹配成功,也就是完成一輪匹配,切分出乙個

詞為止。

這種分詞方法,在由北京航空學院等十多個單位協同進行的我國第一次大規模現代漢語

詞頻統計工作中,實現了我國第乙個自動分詞系統cdws。

2. 逆向最大匹配法 亦稱omm法,或rmm,imm法;其基本原理和mm法相同,不同的是分

詞切分方向;它從被處理材料的末端開始匹配,每次取最末端的i個字作為匹配字段,

匹配失敗則去掉最前面的乙個字。omm法要求配置逆序分詞詞典。

3. 逐詞遍歷匹配法, 它把詞典中的詞按照由長到短遞減的順序逐個搜尋匹配整個代處

理材料,直到把所有的詞都切分出來為止。

4. 設立切分標誌法 ,這種方法首先要收集那些標點符號(稱為自然切分標誌)以外的

眾多非自然切分標誌,例如,只充當詞首字或詞尾字的字,對這些非自然切分標誌進行

搜尋,根據這些標誌,把句子切分為若干較短的字段,然後再使用mm或者omm等方法進

行進一步的切分。準確的說,這種方法並不是一種真正意義上的分詞方法,只不過是自

動分詞的一種前處理方式而已。而且,這種前處理並沒有提高分詞精確度,卻要額外消

耗時間掃瞄切分標誌,增加分詞的時間複雜度。

5. 正向最佳匹配法和逆向最佳匹配法 最佳匹配法的出發點,是在詞典中按詞頻的大

小排列詞條,以求縮短對分詞詞典的搜尋時間,達到最佳效果,從而降低分詞的時間復

雜度,以加快分詞速度。實際上,這是對分詞詞典預先進行的一種加工,也不是純粹意

義上的一種分詞方法。

中文分詞和搜尋引擎

搜尋引擎,上網的人基本上都不陌生了,cnnic的第17次 網際網路調查報告 顯示,使用搜尋引擎服務的網民,僅次於電子郵件。中文分詞,估計了解的人並不多,畢竟太技術,太底層。但中文分詞是中文搜尋引擎系統中非常重要的模組,這裡之所以強調是中文搜尋引擎,是針對英文搜尋引擎來講,因為對於英文來說,空格代表詞...

中文分詞和搜尋引擎

winter 搜尋引擎,上網的人基本上都不陌生了,cnnic的第17次 網際網路調查報告 顯示,使用搜尋引擎服務的網民,僅次於電子郵件。中文分詞,估計了解的人並不多,畢竟太技術,太底層。但中文分詞是中文搜尋引擎系統中的非常重要的模組,這裡之所以強調是中文搜尋引擎,是針對英文搜尋引擎來講,因為對於英文...

中文分詞和搜尋引擎

winter 搜尋引擎,上網的人基本上都不陌生了,cnnic的第17次 網際網路調查報告 顯示,使用搜尋引擎服務的網民,僅次於電子郵件。中文分詞,估計了解的人並不多,畢竟太技術,太底層。但中文分詞是中文搜尋引擎系統中的非常重要的模組,這裡之所以強調是中文搜尋引擎,是針對英文搜尋引擎來講,因為對於英文...