中文分詞消除歧義簡單思想

2022-03-14 18:28:13 字數 690 閱讀 9515

在這個程式裡我用了乙個簡單的消除歧義的思想,

就是在自己分詞時候得到了得到正向最大匹配的各個詞的時候,

從左到右判斷得到的每個詞,怎麼判斷呢?

我們把這個詞最後面的那個字與他後面的詞的第乙個字組合起來和詞庫比較,若有這個組合詞的話,我們就把這個組合詞與他的前後母體分開,成為單獨的詞

例子:電子產業和服裝業

如果正向最大匹配的話我們得到  (詞庫里得有「和服」 「電子產業」 「服裝業」  「服裝」 )

電子產業      和服   裝   業   (這當然不是我們想要的結果)

如果我們把 「和服 」  的「 服」  字  和 「裝」  搭配的時候 讓他和「和服」 分割

電子產業       和          服裝        業   (這個結果要比上乙個好點吧)

當然這種情況也不是什麼好的,有時也會把我們認為好的詞分開,

觀察了幾種消除歧義的思想,感覺都不怎麼準,對某個例子適用對某個就不怎麼適用了

看了看國內流行的:ik    庖丁   imdict。。。。  分詞結果

感覺沒有完美的分詞器,只有自己定義適合自己的詞庫才會有好分詞的結果

另外還有一種思想是在詞的後面加上 詞的權重

接合上面的思想,比較前後詞誰的權重大確定是否和前後母體分割

當然不同領域的詞  同乙個詞的 權重也不會同

還是那句話只有適合自己的,沒有完美的

語義歧義消除

語義消歧可以看作分類問題。乙個詞w有k個含義,對w消歧 就是確定w在特定句子中究竟使用了哪乙個含義,即把w分到k類中的乙個。分類的依據則是和w鄰近的詞,即w的上下文c。歧義可以分為兩類 一類是詞的語義有多種,如 bank 可以是銀行,也可以是河岸 另一類是詞本身的詞性也是多樣的,如predicate...

中文分詞 中文分詞及其應用

一 中文分詞原理 中文分詞是指將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有的分詞方法可分為三大類,分別是基於字串匹配的分詞方法 基於理解的分詞方法和基於統計的分詞方法。一 基於字串匹配的分詞方法 基於字串匹配的分詞方法又稱機械分詞方法,它是按...

bilstm crf中文分詞 多標準中文分詞模型

這是復旦19年6月剛發的文章,初略看一遍,記筆記。chinese word segmentation簡稱cws 將多標準學習引入到cws,不同分詞標準語料共享common knowledge,能夠互相提公升 作者提到應該是第一次從頭開始訓練transformer做分詞任務,避免了rnn和cnn的長依...