文字蘊含日記1 中文分詞

1、什麼是分詞

分詞是指將連續的字序列按照一定的規範重新組合成詞序列的過程。簡而言之，就是將乙個句子中的字重新劃分組合成詞。

2、為什麼要強調中文分詞技術

之所以特地強調中文分詞，是因為中文在行文上的特殊性。

以英文為代表的拉丁語系語言，英文以空格作為天然的分隔符，而中文詞語之間沒有分隔。古代漢語中除了連綿詞和人名地名等，詞通常就是單個漢字，所以當時沒有分詞書寫的必要。而現代漢語中雙字或多字詞居多，乙個字不再等同於乙個詞。所以現代漢語的基本表達單元雖然為詞，但由於人們認識水平的不同，會將乙個句子的詞劃分成不同的樣子。

3、中文分詞技術的作用

中文分詞是***文字挖掘***的基礎。對於輸入的一端中文，如果可以成功的進行中文分詞，可以實現電腦自動識別語句涵義。

中文分詞對於搜尋引擎來說，最重要的是把最相關的結果排在最前面，即***相關度排序***。從定性分析來說，搜尋引擎的分詞演算法不同，詞庫的不同都會影響頁面的返回結果。

4、演算法分類

現有的分詞演算法可分為三大類：基於字串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。按照是否與詞性標註過程相結合，又可以分為單純分詞方法和分詞與標註相結合的一體化方法。

（1）字元匹配

通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就

是在分詞的同時進行句法、語義分析，利用句法資訊和語義資訊來處理歧義現

象。它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。在總控

部分的協調下，分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分

詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大

量的語言知識和資訊，目前還處在實驗階段。

（3）統計法

從形式上看，詞是穩定的字的組合，因此在一篇文章中，相鄰字同時出現

的次數越多，越有可能構成乙個詞，因此字與字相鄰共現的頻率能夠較好的

反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統

計，計算它們的互現資訊。定義兩個字的互現資訊，計算兩個漢字x、y的相

鄰共現概率。互現資訊體現了漢字之間結合關係的緊密程度。當緊密程度高

於某乙個閾值時，便可認為此字組可能構成了乙個詞。

5、結巴分詞

結巴分詞涉及到的演算法包括：基於trie樹結構實現高效的詞圖掃瞄，生成句子中漢字所有可能成詞情況所構成的有向無環圖（dag）；採用了動態規劃查詢最大概率路徑，找出基於詞頻的最大切分組合；對於未登入詞，採用了基於漢字成詞能力的hmm模型，使用了viterbi演算法。

結巴分詞支援三種分詞模式：

（1）精確模式：試圖將句子最精確地切開，適合文字分析；

（2）全模式：把句子中所有的可以成詞的詞語都掃瞄出來，速度非常快，但是不能解決歧義問題。

（3）搜尋引擎模式：在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。

文字蘊含日記1 中文分詞

SolrCloud學習（二）中文分詞

自然語言處理系列六》中文分詞》中文分詞原理

中文文字分析（1）分詞

文字蘊含日記1 中文分詞

SolrCloud學習（二）中文分詞

自然語言處理系列六》中文分詞》中文分詞原理

中文文字分析（1） 分詞

相關推薦

中文文字分析（1）分詞