語言模型中常見的平滑處理技術

2021-10-03 20:37:34 字數 530 閱讀 7060

在使用語言模型直接計算某個句子出現的概率時,可能會由於某個單詞或單詞對出現的概率為0而導致整個句子出現的概率為0。

例如下面這個場景:

在上面的場景中,由於部分單詞對出現的概率為0,導致最終兩句話出現的概率均為0。但實際上,s1=「今天沒有訓練營」比s2=「今天訓練營沒有」更符合語法習慣,我們也更希望計算出來的p(s1)大於p(s2)。

為了解決上述問題,考慮引入平滑處理的技術,來修正計算過程中的概率值,避免某一項概率為0導致整個句子的概率為0。

一般來說,語言模型的平滑處理可分為以下三類:

2.1 discounting:包括add‐one smoothing、add‐k smoothing、good-turing smoothing等。

2.2 interpolation:包括linear interpolation等。

n gram 語言模型的平滑技術

1.統計語言模型 首先乙個句子的概率 p s 但是存在兩個問題 2.n gram模型 為了解決第乙個問題引入馬爾科夫假設 markov assumption 乙個詞的出現僅與它之前的若干個詞有關 然後利用極大似然估計 maximum likelihood estimation,mle 計算每一項的頻...

自然語言處理基礎(4) 資料平滑技術

n元語法模型中,在統計結果中出現了零概率事件反映語言的規律性,即這種現象本來就不該出現,但更多的時候是由於語言模型的訓練文字t的規模以及其分布存在著一定的侷限性和片面性。這就是所謂的 資料稀疏 問題。所謂 資料平滑技術 是指為了產生更準確的概率來調整最大似然估計的技術,基本思想就是提高低概率 如零概...

NLP系列學習 常用的語言平滑模型

語言模型常見的平滑演算法就那幾種,一般的教程都不提分幾種的模式 分類。不過在mit的nlp課程ppt中總結說有三種模式 discounting,interpolationg,back off 有關這三種模式的描述可以見其ppt discounting類包括 add one smoothing 加法平...