目前中文分詞方法基本採用基於詞典,輔助規則的方法。
通常採用一種基本的分詞方法,處理之後對結果進行規則處理,歧義消解。
在實際中需要注意以下幾點,改善分詞質量
(1)地名的識別和處理
(2)人名的識別和處理(和地名不同,人名的難點是無法做得將所有人民作為詞典中的詞來儲存)
(3)數字(含中文數字),頁碼等的識別
(4)詞性識別,語氣詞,助詞等
(5)分詞出現單字的處理
對於這些特殊的規則,舉若干例子
南京市長江大橋,則可能有[南京][市長][江大橋]和[南京市][長江大橋]兩種看上去均合理的切分法。
但如果引入的地名識別,則可以較容易的處理這種情況。
計畫在30日後開始,則可能有[計畫][在][30][日後][開始]和[計畫][在][30日][後][開始]兩種分法。
但30這個量詞的單位必然和30連線,因此日後的分法不妥當。
分詞的好壞對最終的索引,查詢的結果有很大影響,往往有些好的結果無法搜尋出,正是由於分詞的原因。
持續改進分詞的思路基本如下:
(1)確定一類問題,通過規則來準確識別這一類問題。
(2)將這一類問題單獨調優,而不影響其餘分詞效果。
這相當於從分詞的大問題中,劃分出需要解決的子問題,進而確定解決子問題的方法,周而復始。
在此過程中,乙個人工正確分詞的語料庫則尤為關鍵,從而不斷地能衡量分詞水平的提公升。
中文分詞的方法
中文分詞主要有兩個類別 本別是基於字詞典分詞演算法和基於統計的機器學習演算法,下面依次介紹這兩種方法。也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的 充分大的 詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種 正向...
中文分詞方法簡介
中文與西方文字不同,西方文字如英文的單詞間有空格作為分隔,計算機很容易把乙個個詞分開。而中文句子裡的之間沒有分隔,要把中文句子拆分成詞就需要使用中文分詞技術。由於全文索引採用的是倒排索引技術,所以分詞的效果直接決定了搜尋的效果。目前的中文分詞技術主要有 n元切分 最長匹配 最大壓縮 統計語言模型等方...
常用中文分詞方法
一 正向最大匹配fmm 從左到右將待分詞文字中的最多個連續字元與詞表匹配,如果匹配上,則切分出乙個詞。二 逆向最大匹配 從右到左將待分詞文字中的最多個連續字元與詞表匹配,如果匹配上,則切分出乙個詞。三 雙向最大匹配 正向最大匹配演算法和逆向最大匹配演算法 如果兩個演算法得到相同的分詞結果,那就認為是...