常用的分詞方法
自然語言處理常用的分詞方法有正向和逆向最大匹配、最短路徑、全切分、最大概率、n-最短路徑等方法。現在流行起來的還有最大熵模型、hmm模型、決策樹、bp神經網路、n-gram等方法。
現在我很想把它們在分詞中的聯絡和區別都一一搞清楚。
最大匹配分詞方法簡單、容易實現, 但是無法解決上面提到的歧義問題。因此分詞結果的正確率不是很高, 導致最終的標註結果的準確率較低。
比如對於以下兩個句子進行切分:
(1)「這件事未終了」進行正向和逆向最大匹配演算法:
正向最大匹配演算法:這件|事|未終|了
逆向最大匹配演算法:這件|事|未|終了
(2)「我有意見分歧」進行正向和逆向最大匹配演算法:正向最大匹配演算法:我|有意|見|分歧
逆向最大匹配演算法:我|有|意見|分歧
到底是」終了「還是」未終「,」有意「還是」意見「,不同的分詞演算法就會產生不同的歧義。
最短路徑方法是使切分出來的詞數最少, 但是最短路徑經常不只一條, 不科學的捨棄原則也影響了分詞結果。前人在此基礎上引入n-最短路徑方法, 該方法保留了條較短路徑, 即分詞結果有多條, 體現了很好的包容性, 可以最大限度的包容正確結果。此外最大概率分詞方法也是乙個較好的分詞方法, 它的理論依據是聯合概率最大的詞串就是最終的切分結果。而而全切分方法與以上方法的不同之處在於它切分出了所有可能的切分結果, 不在分詞階段做排除工作。
自然語言處理學習筆記 007
分詞標註一體化 概率全切分標註模型 詞性標註的基本方法有兩種基於規則的方法和基於統計的方法。基於規則的方法需要採用人工的方法構建大量的語法規則,該方法不易保證規則的完備性和在真實文字處理中的有效性。基於統計的方法主要有基於隱馬爾可夫模型 基於最大熵的方法和決策樹等方法。其中基於馬爾可夫模型的方法是詞...
自然語言處理學習記錄
v set text1 long words w for w in v if len w 15 找出長度大於7並且出現頻率大於7的單詞 fdisi5 freqdist text5 sorted w for w in set text5 if len w 7 and fdist5 w 7 檢視文字中詞...
《Python自然語言處理》學習筆記(二)
今天的內容涉及對語言簡單的統計和python基本控制流程 if,for 一.計算語言 1.頻率分布 freqdist函式 需要乙個文字作為引數,返回一組鍵值對,鍵是單詞,值時單詞在文中出現的次數。fdist1 freqdist text1 plot函式 通過引數,可以繪製單詞的頻率圖,或者累積頻數圖...