中文分詞按照分詞粒度來分,分成 一元分詞,二元分詞,多元分詞和精確分詞等型別。一元分詞就是最簡單的分詞,將所有的中文字元按照單字形式輸出。二元分詞按雙字形式輸出。多元分詞則是將一句話中可能的單詞組合按照一定規則輸出,允許輸出的詞有重疊。精確分詞則是將一句話中最準確的單詞組合輸出,不允許輸出的詞有重疊。當然這裡用精確這個詞來修飾只是為了與其他幾種分詞方法區分,不可能有完全精確的分詞方法,因為我們偉大祖國的語言實在是博大精深,分詞本身缺乏標準(能否制定標準也是乙個問號)一些中文句子就是由人來分解也可能分出不同的結果,所以到目前為止還沒有100%精確的分詞方法。
由於一元和二元分詞較為簡單,其分詞的效果也不盡理想,這裡不多討論。
多元分詞的缺點:
為了解決這個問題,盤古分詞提出了兩個概念,乙個是多元分詞的冗餘度(redundancy),乙個是多元分詞結果的權重級別(rank)。
首先先談談冗餘度,對於一句話,可能會有很多種分詞組合,我們通過冗餘度的設定可以控制這個組合的數量。 盤古分詞支援3級冗餘。當冗餘度設定為0時,只分解最佳的分詞組合,設定為1時次之,2時再次之。
比如 「中華人民共和國」 ,冗餘度取0,1,2 時 分詞結果分別為
中華人民共和國(0,5)/
中華(0,3)/人民共和國(2,3)/中華人民(0,3)/共和國(4,3)/中華人民共和國(0,5)/
中(0,2)/華(1,2)/人民共和國(2,2)/中華(0,2)/人民(2,2)/共和國(4,2)/中華人民(0,2)/共和(4,2)/國(6,2)/中華人民共和國(0,5)/
其中挎號中第乙個數字表示單詞在整個文章中的位置,第二個數字表示權重級別。下同。
盤古分詞不同分詞方法的索引大小和分詞時間比較
我們再談談權重。盤古分詞將多元分詞出來的單詞根據其詞長,詞的間隔以及未登入詞的取捨等條件給定了不同的權重。最高權重為5,最低為0。由於lucene.net 不支援根據權重建立索引(畢竟其不是為中文設計的),我們只能在搜尋時對分解出來的關鍵字指定權重來影響搜尋結果。
google 的搜尋結果 59 條符合條件的記錄 搜尋關鍵字:長春市長**店 site:cnblogs.com
1.常用分詞演算法的比較與設想- alic的資料夾-
ktdictseg 1.4 版本 + lucene.net 2.0 的搜尋結果 376 條符合條件的記錄
常用分詞演算法的比較與設想- alic的資料夾-
,語義錯誤) 長春市/長春/藥店(分成3個詞,都匹配到,語義正確) 用逆向最大匹配法得到的結果是: 長春/市長/春節/致辭(分成4個詞,都匹配到,語義正確) 長春/市長/**店(分成3個詞,都
ktdictseg 乙個c#.net做的簡單快速準確的開源中文分詞元件- eaglet …
詞結果是長春市/長/春節/致詞,按照反向最大匹配演算法,分詞結果是長春/市長/春節/致詞。 「長春市長**店」可以依次拆分為長春、長春市、市長、長春、**、**店、藥店 這幾個
搜尋引擎中中文片語分詞的實現- 旋風-
第一步:把,」杭州市長「 」杭州市「 「**店」 新增到詞庫中 後效果為:杭州市長/杭州市/杭州/杭/州/市長/市/長/**店/**/春/藥店/藥/店 採用的是模糊分詞分保證每個詞語
中文分詞元件ktdictseg 1.2 版本發布及演算法簡介- eaglet -
9 1 長春 155 2 市長 157 2 春節 159 2 致詞 161 2 -1 1 9 1 長春市 155 3 長春 158 2 藥店 170
漢語轉拼音(帶音調和多音字識別) - 草屋主人的blog -
「長春市長」試了下,確實不對這個跟分詞有關吧?由結果看,是分成了「長春市」「長」了如果是「長春市長大」和「長春市長治久安」,分的就對的看來分詞還要做上下文分
前門新大街8月7日正式開街亮相- 歲月無聲-
店都還空著沒開張,就一些老字型大小開張了,包括」大北照相館、慶林春茶莊、億兆百貨、都一處燒麥館、一條龍羊肉館、長春堂藥店、中國書店、南區郵局、月盛齋醬牛羊肉館、張一元茶莊分社、尚珍閣工藝品店
關於ktdictseg 的多元分詞技術,本文就介紹到這裡。 ktdictseg 1.4 版本還有最後的掃尾工作,不日即將發布。
盤古分詞 功能簡介
posted on 2009 08 13 16 50 eaglet 閱讀 8474 編輯收藏 盤古分詞 功能簡介 兩年前我開發了乙個ktdictseg 中文分詞元件,這個元件推出2年來受到很多朋友的喜愛。不過由於我當初開發ktdictseg時比較倉促,底子沒有打好,而且當時對分詞的理解也比較膚 淺,...
盤古分詞小測
編譯了以後,跟蹤了一下 應該是高手寫的,非常的清晰。只是因為沒有文件,時間有限,不能深入研究它的演算法。基本的演算法是這樣的 比如句子 盤古分詞 簡介 盤古分詞 是由eaglet 開發的一款基於字典的中英文分詞元件 先根據 非中文符號,對句子進行切分,如下 盤古分詞 簡介 盤古分詞 是由 eagle...
Lucene和PanGu(盤古分詞)
先用盤古分詞生成索引,然後對進行查詢語句進行分詞查詢。比較簡單。using system using system.collections.generic using system.linq using system.web using system.web.ui using system.web....