kl散度又稱為相對熵,資訊散度,資訊增益。kl散度是兩個概率分布p和q 差別的非對稱性的度量。 kl散度是用來 度量使用基於q的編碼來編碼來自p的樣本平均所需的額外的位元數。 典型情況下,p表示資料的真實分布,q表示資料的理論分布,模型分布,或p的近似分布。
定義如下:
因為對數函式是凸函式,所以kl散度的值為非負數。
有時會將kl散度稱為kl距離,但它並不滿足距離的性質:
js散度度量了兩個概率分布的相似度,基於kl散度的變體,解決了kl散度非對稱的問題。一般地,js散度是對稱的,其取值是0到1之間。
kl散度和js散度度量的時候有乙個問題:
如果兩個分配p,q離得很遠,完全沒有重疊的時候,那麼kl散度值是沒有意義的,而js散度值是乙個常數。這在學習演算法中是比較致命的,這就意味這這一點的梯度為0。梯度消失了。
wasserstein距離度量兩個概率分布之間的距離,定義如下:
π(p1,p2)是p1和p2分布組合起來的所有可能的聯合分布的集合。對於每乙個可能的聯合分布γ,可以從中取樣(x,y)∼γ得到乙個樣本x和y,並計算出這對樣本的距離||x−y||,所以可以計算該聯合分布γ下,樣本對距離的期望值e(x,y)∼γ[||x−y||]。在所有可能的聯合分布中能夠對這個期望值取到的下界infγ∼π(p1,p2)e(x,y)∼γ[||x−y||]就是wasserstein距離。
直觀上可以把e(x,y)∼γ[||x−y||]理解為在γ這個路徑規劃下把土堆p1挪到土堆p2所需要的消耗。而wasserstein距離就是在最優路徑規劃下的最小消耗。所以wesserstein距離又叫earth-mover距離。
wessertein距離相比kl散度和js散度的優勢在於:即使兩個分布的支撐集沒有重疊或者重疊非常少,仍然能反映兩個分布的遠近。而js散度在此情況下是常量,kl散度可能無意義。
KL散度 JS散度
kl divergence kullback leibler divergence kl散度,kl距離,又叫相對熵 relative entropy 衡量兩個概率分布之間的不同程度,是描述兩個概率分布p和q差異的一種方法就是資訊理論學的相對熵 最簡單的情況 當kl divergence為0時,兩個分...
KL散度與JS散度
js散度 jensen shannon divergence 又稱kl距離,相對熵。kl散度是描述兩個概率分布p和q之間差異的一種方法。直觀地說,可以用來衡量給定任意分布偏離真實分布的程度,如果兩個分布完全匹配,那麼kl p q 0,否則它的取值應該是0 inf 之間。kl散度越小,真實分布與近視分...
KL散度 JS散度以及交叉熵對比
在看 detecting regions of maximal divergence for spatio temporal anomaly detection 時,文中提到了這三種方法來比較時間序列中不同區域概率分布的差異。三者都是用來衡量兩個概率分布之間的差異性的指標。不同之處在於它們的數學表達...