中文分詞演算法現在一般分為三類:基於字串匹配,基於理解,基於統計的分詞。
基於字串匹配分詞:機械分詞演算法。將待分的字串與乙個充分大的機器詞典中的詞條進行匹配。分為正向匹配和逆向匹配;最大長度匹配和最小長度匹配;單純分詞和分詞與標註過程相結合的一體化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。。。實際應用中,將機械分詞作為初分手段,利用語言資訊提高切分準確率。優先識別具有明顯特徵的詞,以這些詞為斷點,將原字串分為較小字串再機械匹配,以減少匹配錯誤率;或將分詞與詞類標註結合。
基於理解分詞:分詞同時進行句法語義分析等模擬人對句子的理解,包括分詞子系統,句法語義系統,總控部分。總控部分協調下,分詞字系統可以獲得有關詞,句子等的句法和語義資訊對分詞歧義進行判斷。需要大量的語言知識資訊。
語義理解中文分詞:解決一詞多義問題,為使用者建立個性化資料庫
中文分詞存在問題:計算機與人對歧義的定義無法統一;字典中未收錄的詞識別率低。
分詞系統判斷標準(待解決問題):歧義識別,新詞(未登入詞)識別。。
中文分詞演算法
基於詞的頻度統計的分詞方法 基於知識理解的分詞方法 中文分詞演算法基本上可以分基於詞典的演算法 詞庫匹配以及基於詞頻的方法 將詞典中所有的詞按照從長到短的順序在文章中進行檢索,直至文章結束。效率比較低 漢字欄位與乙個 充分大 的詞典進行匹配,如果匹配成功,則識別出乙個詞。根據掃瞄方向的不同分為正向匹...
《中文分詞演算法研究》
看完了才發現作者是經濟管理學院的。這是篇08年的 目前國內外對於中文分詞的主要研究成果分為以下幾種 正向最大匹配法 反向最大匹配方法 分詞與詞性標註一體化方法 最佳匹配法 專家系統方法 最少分詞詞頻選擇方法 神經網路方法等。ictclas institute of computing technol...
中文分詞演算法筆記
中文分詞基本演算法主要分類 基於詞典的方法 基於統計的方法 基於規則的方法 傳說中還有基於理解的 神經網路 專家系統,按下不表 1 基於詞典的方法 字串匹配,機械分詞方法 定義 按照一定策略將待分析的漢字串與乙個 大機器詞典 中的詞條進行匹配,若在詞典中找到某個字串,則匹配成功。按照掃瞄方向的不同 ...