常用中文分詞方法

2021-08-20 16:44:37 字數 641 閱讀 4687

一、正向最大匹配fmm

從左到右將待分詞文字中的最多個連續字元與詞表匹配,如果匹配上,則切分出乙個詞。

二、逆向最大匹配

從右到左將待分詞文字中的最多個連續字元與詞表匹配,如果匹配上,則切分出乙個詞。

三、雙向最大匹配

正向最大匹配演算法和逆向最大匹配演算法.如果兩個演算法得到相同的分詞結果,那就認為是切分成功,否則,就出現了歧義現象或者是未登入詞問題。

四、n-gram雙向最大匹配

基於字串的分詞方法中的正向最大匹配演算法和逆向最大匹配演算法。然後對兩個方向匹配得出的序列結果中不同的部分運用bi-gram計算得出較大概率的部分。最後拼接得到最佳詞序列。

五、hmm分詞

序列標註

b:起始詞

m:中間詞

e:結束詞

s:單獨的詞

比如:['現在

', '

縣', '

財政', '

的', '

近', '

90%', '

來自', '

鄉鎮企業

', ',']

['b', 'e', 's', 'b', 'e', 's', 's', 'b', 'm', 'e', 'b', 'e', 'b', 'm', 'm', 'e', 's']

中文分詞方法簡介

中文與西方文字不同,西方文字如英文的單詞間有空格作為分隔,計算機很容易把乙個個詞分開。而中文句子裡的之間沒有分隔,要把中文句子拆分成詞就需要使用中文分詞技術。由於全文索引採用的是倒排索引技術,所以分詞的效果直接決定了搜尋的效果。目前的中文分詞技術主要有 n元切分 最長匹配 最大壓縮 統計語言模型等方...

中文分詞方法介紹

中文分詞的基本方法可以分為基於語法規則的方法 基於詞典的方法和基於統計的方法。基於語法規則的分詞法基本思想是在分詞的同時進行句法 語義分析,利用句法資訊和語義資訊來進行詞性標註,以解決分詞歧義現象。因為現有的語法知識 語法規則十分籠統 複雜,基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意,...

中文分詞的方法

中文分詞主要有兩個類別 本別是基於字詞典分詞演算法和基於統計的機器學習演算法,下面依次介紹這兩種方法。也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的 充分大的 詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種 正向...