語言模型中常見的平滑處理技術

在使用語言模型直接計算某個句子出現的概率時，可能會由於某個單詞或單詞對出現的概率為0而導致整個句子出現的概率為0。

例如下面這個場景：

在上面的場景中，由於部分單詞對出現的概率為0，導致最終兩句話出現的概率均為0。但實際上，s1=「今天沒有訓練營」比s2=「今天訓練營沒有」更符合語法習慣，我們也更希望計算出來的p(s1)大於p(s2)。

為了解決上述問題，考慮引入平滑處理的技術，來修正計算過程中的概率值，避免某一項概率為0導致整個句子的概率為0。

一般來說，語言模型的平滑處理可分為以下三類：

2.1 discounting：包括add‐one smoothing、add‐k smoothing、good-turing smoothing等。

2.2 interpolation：包括linear interpolation等。

n gram 語言模型的平滑技術

1.統計語言模型首先乙個句子的概率 p s 但是存在兩個問題 2.n gram模型為了解決第乙個問題引入馬爾科夫假設 markov assumption 乙個詞的出現僅與它之前的若干個詞有關然後利用極大似然估計 maximum likelihood estimation，mle 計算每一項的頻...

自然語言處理基礎（4）資料平滑技術

n元語法模型中，在統計結果中出現了零概率事件反映語言的規律性，即這種現象本來就不該出現，但更多的時候是由於語言模型的訓練文字t的規模以及其分布存在著一定的侷限性和片面性。這就是所謂的資料稀疏問題。所謂資料平滑技術是指為了產生更準確的概率來調整最大似然估計的技術，基本思想就是提高低概率如零概...

NLP系列學習常用的語言平滑模型

語言模型常見的平滑演算法就那幾種,一般的教程都不提分幾種的模式分類。不過在mit的nlp課程ppt中總結說有三種模式 discounting,interpolationg,back off 有關這三種模式的描述可以見其ppt discounting類包括 add one smoothing 加法平...

語言模型中常見的平滑處理技術

n gram 語言模型的平滑技術

自然語言處理基礎（4） 資料平滑技術

NLP系列學習 常用的語言平滑模型

相關推薦

自然語言處理基礎（4）資料平滑技術

NLP系列學習常用的語言平滑模型