雜訊對比估計 負樣本取樣

2022-05-03 22:09:07 字數 2354 閱讀 1212

目錄

gutmann m u, hyvarinen a. noise-contrastive estimation: a new estimation principle for unnormalized statistical models[c]. international conference on artificial intelligence and statistics, 2010: 297-304.

@article,

author=,

pages=,

year=}

在處理引數化概率密度的時候, 往往需要處理配分函式, 即

\[p(x;\theta)=\frac,

\]\(z(\theta)\)是和引數\(\theta\)有關的.

繼續往下走, 一般估計引數, 最普通的就是極大似然估計, 即

\[\max_ \sum_^n \log f(x_i;\theta)-n\log z(\theta),

\]當\(z(\theta)\)有顯示表示式的時候, 上面的玩意兒還能弄, 故一般情況下, 這種估計方法就不是很合適了, 本文另闢蹊徑, 引入了負取樣來應對這一問題.

這裡, 我們用\(p(x)=p(x;\theta^*)\)來表示樣本資料\(x\)的真實的分布. 令\(x\)取樣自\(p(x)\)的為真實的樣本(\(c=1\)), 即我們所觀測到的樣本, 而取樣自另乙個分布\(q(x)\)的為樣本為偽樣本(\(c=0\)), 不妨設\(p(c=0)=p(c=1)=\frac\), 則

\[p(x|c=1)=p(x), \quad p(x|c=0)=q(x),

\]對應的估計為

\[p(x|c=1;\theta)=p(x;\theta).

\]相應的後驗概率為

\[p(c=1|x;\theta)=\frac,

\]\[p(c=0|x;\theta)=\frac.

\]自然, 我們可以通過極大似然估計(關於隨機變數\(c\))來估計引數\(\theta\):

\[\ell(\theta)=\sum_^n c_i \log p(c=1|x;\theta)+(1-c_i)\log p(c=0|x;\theta).

\]若我們記

\[g(x;\theta) = \log p(x;\theta)- \log q(x), \sigma(x;\theta) = \frac.

\]注: 邏輯斯蒂回歸.

則\[p(c=1|x;\theta)=\sigma(x;\theta), p(c=0|x;\theta)=1-\sigma(x;\theta).

\]更一般的(通過大數定律)

\[\tag

j(\theta) = \mathbb_ \log \sigma(x;\theta) + \mathbb_ \log (1-\sigma(x;\theta)).

\]理解是很自然的, 就是我們希望引數\(\theta\)使得真實的樣本與虛假的樣本是盡可能可分的(邏輯斯蒂回歸).

觀察(1)式, 先展開得

\[\int p(x) \log \sigma(x;\theta) + q(x) \log (1-\sigma(x;\theta)) \mathrmx,

\]等價於

\[\int [p(x)+q(x)] [\sigma(x)\log \sigma(x;\theta)+(1-\sigma(x)\log (1-\sigma(x;\theta)] \mathrm x,

\]等價於最大化

\[-\int [p(x)+q(x)] [\sigma(x)\log \frac+(1-\sigma(x)\log \frac] \mathrm x,\]即

\[-\mathbb_ d_\mathrm(\sigma (x)\| \sigma(x;\theta))- \mathbb_ d_\mathrm(\sigma(x)\| \sigma(x;\theta)).

\]注: 這裡\(\sigma\)本身不是乙個分布, \(\sigma\)和\(1-\sigma\)共同表達了\(c\)的分布.

因為kl散度非負, 且當且僅當\(\sigma(x;\theta) = \sigma(x)\)的時候取0, 故最優解為

\[g(x;\theta)=g(x),\]即

\[\frac = \frac,\]即

\[q(x)[p(x;\theta)-p(x)]=0.

\]故, 只需要滿足\(p(x)\)非零的時候, \(q(x)\)也非零(顯然高斯分布是一定適用的), 則通過最大化(1)得到的解是唯一的且滿足

\[p(x;\theta^*)=p(x).

\]則便是我們想要的結果.

另外, 作者說, 雜訊分布\(q(x)\)最好和\(p(x)\)比較接近, 這樣子由於比較難以區分兩類樣本, 可以使得判別器(邏輯斯蒂回歸)更好的抓住資料的特徵.

Matlab白雜訊高斯雜訊

實現書本 隨機控制 上關於生成高斯白雜訊的方法。白雜訊就是標準均勻分布偽隨機數列。1.標準均勻分布函式,均值1 2,方差1 12 x1 1973 y zeros 1,500 for i 1 500 x1 mod 91 x1,10 4 y 1,i x1 10000 end stem y xlabel ...

下列不屬於雜訊的是 窄帶雜訊 高斯雜訊 白雜訊

窄帶雜訊 高斯雜訊 白雜訊是雜訊裡經常聽到幾個詞。先看一下大致定義 高斯雜訊是指它的概率密度函式服從高斯分布 即正態分佈 的一類雜訊。窄帶雜訊是指頻帶範圍較窄的一類雜訊,系統的頻頻寬度遠遠小於其中心頻率的系統。白雜訊是指它的功率譜密度函式在整個頻域內是常數,即服從均勻分布。可以看出他們描述的屬於不同...

雜訊係數與雜訊因子

為了衡量電子系統的雜訊效能,需要引入雜訊因子f noise factor 和雜訊係數nf noise figure 的概念。雜訊係數nf與雜訊溫度的關係為 t nf 1 t0 或 nf t t0 1 其中 t0 絕對溫度 290k 雜訊因子f 輸入訊雜比 輸出訊雜比 即 f si ni so no ...