1. 一元分詞/二元分詞/多元分詞/精確分詞
一元分詞是按字拆分的,比如一句話「夢想很豐滿」,在盤古分詞中使用一元分詞拆分的結果是:夢/夢想/想/很/美/美滿/滿/。
二元分詞按雙字形式輸出。比如一句話「夢想很豐滿」,使用二元分詞拆分的結果是:「夢想」,「想很」,「很豐」,「豐滿「。
多元分詞則是將一句話中可能的單詞組合按照一定規則輸出,允許輸出的詞有重疊。
「夢想很豐滿」,在盤古分詞中使用冗餘度為1的多元分詞拆分的結果是:夢想/很/美/美滿/。
精確分詞則是將一句話中最準確的單詞組合輸出,不允許輸出的詞有重疊。如以上例句使用精確分詞的結果是:夢想/很/美滿/
精確分詞是一般意義上分詞演算法追求的目標。
多元分詞對搜尋引擎有重要意義,因為多元分詞增加了冗餘,所以和搜尋引擎結合可以得到較多的匹配結果(相對精確分詞而言)。
2. 中文人名識別
人名詞典是chssinglename.txt, chsdoublename1.txt, chsdoublename2.txt,但沒有看到姓氏的詞典?
3. 中文未登詞識別
4 盤古的詞典管理工具
包含了詞名,詞性,詞頻資訊。
5. 擴充套件思考
如果讓盤古分詞支援地名,商品名稱,該如果進行?只要將這些名稱加入詞庫就可以了嗎?
後續需要查閱中文人名,地名,組織名識別的相關**。
其他分詞工具:基於python的結巴分詞
盤古分詞 多元分詞演算法
中文分詞按照分詞粒度來分,分成 一元分詞,二元分詞,多元分詞和精確分詞等型別。一元分詞就是最簡單的分詞,將所有的中文字元按照單字形式輸出。二元分詞按雙字形式輸出。多元分詞則是將一句話中可能的單詞組合按照一定規則輸出,允許輸出的詞有重疊。精確分詞則是將一句話中最準確的單詞組合輸出,不允許輸出的詞有重疊...
盤古分詞 功能簡介
posted on 2009 08 13 16 50 eaglet 閱讀 8474 編輯收藏 盤古分詞 功能簡介 兩年前我開發了乙個ktdictseg 中文分詞元件,這個元件推出2年來受到很多朋友的喜愛。不過由於我當初開發ktdictseg時比較倉促,底子沒有打好,而且當時對分詞的理解也比較膚 淺,...
盤古分詞小測
編譯了以後,跟蹤了一下 應該是高手寫的,非常的清晰。只是因為沒有文件,時間有限,不能深入研究它的演算法。基本的演算法是這樣的 比如句子 盤古分詞 簡介 盤古分詞 是由eaglet 開發的一款基於字典的中英文分詞元件 先根據 非中文符號,對句子進行切分,如下 盤古分詞 簡介 盤古分詞 是由 eagle...