中文分詞主要有兩個類別:本別是基於字詞典分詞演算法和基於統計的機器學習演算法,下面依次介紹這兩種方法。
也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的「充分大的」詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。
基於詞典的分詞演算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字串匹配方法進行優化,比如最大長度設定、字串儲存和查詢方式以及對於詞表的組織結構,比如採用trie索引樹、雜湊索引等。
這類目前常用的是演算法是hmm、crf、深度學習等演算法,其本質是序列標註,比如stanford、hanlp分詞工具是基於crf演算法。以crf為例,基本思路是對漢字進行標註訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登入詞的識別都具有良好的效果。
分詞標準:比如人名,在哈工大的標準中姓和名是分開的,但在hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標準。
歧義:對同乙個待切分字串存在多個分詞結果。
新詞:也稱未被詞典收錄的詞,該問題的解決依賴於人們對分詞技術和漢語語言結構的進一步認識。
中文分詞方法簡介
中文與西方文字不同,西方文字如英文的單詞間有空格作為分隔,計算機很容易把乙個個詞分開。而中文句子裡的之間沒有分隔,要把中文句子拆分成詞就需要使用中文分詞技術。由於全文索引採用的是倒排索引技術,所以分詞的效果直接決定了搜尋的效果。目前的中文分詞技術主要有 n元切分 最長匹配 最大壓縮 統計語言模型等方...
常用中文分詞方法
一 正向最大匹配fmm 從左到右將待分詞文字中的最多個連續字元與詞表匹配,如果匹配上,則切分出乙個詞。二 逆向最大匹配 從右到左將待分詞文字中的最多個連續字元與詞表匹配,如果匹配上,則切分出乙個詞。三 雙向最大匹配 正向最大匹配演算法和逆向最大匹配演算法 如果兩個演算法得到相同的分詞結果,那就認為是...
中文分詞方法介紹
中文分詞的基本方法可以分為基於語法規則的方法 基於詞典的方法和基於統計的方法。基於語法規則的分詞法基本思想是在分詞的同時進行句法 語義分析,利用句法資訊和語義資訊來進行詞性標註,以解決分詞歧義現象。因為現有的語法知識 語法規則十分籠統 複雜,基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意,...