廣泛應用於:機器翻譯,語音識別,印刷體或手寫體的識別,拼音糾錯,漢字輸入和文獻查詢。
馬爾科夫假設:n元模型(n-1階馬爾科夫假設):每個詞和前面的n-1個詞有關。
n-1的一元模型就是上下文無關模型。實際應用中最多的是n=3的三元模型,更高階的很少使用。google的羅塞塔翻譯系統和語音搜尋系統使用的是四元模型,該模型儲存於500臺以上的伺服器中。
零概率問題,平滑方法的處理:之所以敢用取樣資料進行觀察的結果來**概率,是因為有大數定理的支援。2023年古德在他老闆圖靈指導下提出在統計中相信可靠的統計資料,對於不可信的統計資料打折扣,同時將折扣出來的一小部分概率給予未看見的事件(零概率)
語料選取:訓練語料和應用資料一致,搜尋質量反而好。例如搜尋選用新聞語料訓練,不如網頁語料好了。訓練語料和應用資料一致,並且訓練量足夠大的情況下,訓練語料的噪音高低也會對模型的效果也會產生一定的影響,所以能用pattern過濾的可以先過濾了。
缺點:但是三元模型甚至更高階的模型也不能覆蓋所有的語言現象。在自然語言中,上下文之間的相關性可能跨度非常大,甚至可以從乙個段落跨到另乙個段落,無論怎麼提高模型的階數,也無可奈何,這就是馬爾科夫假設的侷限性,需要採用其他的一些長程依賴。
數學之美(統計語言模型)
今天看了數學之美這本書,第三章統計語言模型,只是趣味掃盲類閱讀,並不涉及很深的數學知識。記錄之。驗證機器是否智慧型 最早提出機器智慧型設想的是計算機之父阿蘭.圖靈,他曾提出乙個方法 讓任何機器進行交流,如果人無法判斷自己交流的物件是人還是機器,那就說明這個機器有智慧型了。自然語言處理的彎路 最早的科...
自然語言處理 統計語言模型(數學之美)
乙個句子是否合理,就看他的可能性大小如何。概括來說 假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1 w2,wn組成,這裡的n表示句子的長度。則概率p s 表示上面句子的合理性。p s p w1,w2,w n 利用條件概率公式 p w1,w 2,wn p w1 p w2 w1 p w3 w...
1《數學之美》第3章 統計語言模型
163mail luomgf 目錄2 延伸閱讀 統計語言模型的工程訣竅 2.2 模型的訓練 零概率問題和平滑方法 語料庫 begin p s p w 1,w 2,w3,cdots,w n end 根據條件概率公式 begin p w 1 p w 2 w 1 p w 3 w 1,w 2 cdots,p...