高斯,拉普拉斯分布

2021-10-06 22:21:36 字數 2504 閱讀 9109

一般來說我們可以使用正則化來避免過度擬合。但是實際上什麼是正則化,什麼是通用技術,以及它們有何不同?

「正規化是我們對學習演算法所做的任何修改,旨在減少其泛化誤差,而不是其訓練誤差。」

換句話說:通過防止演算法過度擬合訓練資料集,可以將正則化用於訓練對看不見的資料更好地泛化的模型。

那麼,如何修改邏輯回歸演算法以減少泛化誤差呢?

我發現的常見方法是高斯,拉普拉斯,l1和l2。

高斯還是l2,拉普拉斯還是l1?這有什麼不同嗎?

可以證明l2和高斯或l1和拉普拉斯正則化對演算法具有同等影響。獲得正則化效果的方法有兩種。

第一種方法:新增正則項

為了計算邏輯回歸的回歸係數,對數似然函式(也稱為目標函式)的負數被最小化

其中ll表示似然函式的對數,β表示係數,y表示因變數,x表示自變數。

是通過將正則化項r(β)乘以引數λ∈r +到目標函式上來懲罰高係數

但是為什麼我們要懲罰高係數呢? 如果乙個特徵僅在乙個類別**現,則將通過邏輯回歸演算法為其分配很高的係數。 在這種情況下,模型可能會非常完美地了解有關訓練集的所有詳細資訊。

被新增以懲罰高係數的兩個常見的正則化項是l1範數或範數l2的平方乘以½,這激發了名稱l1和l2正則化。

注意。 係數½用於l2正則化的某些推導中。 這使得計算梯度更容易,但是,僅常數值可以通過選擇引數λ來補償。

l1正規化定義為

l2正則化的正則化項定義為

貝葉斯正則化觀點

第二種方法假定係數的給定先驗概率密度,並使用最大後驗估計(map)方法。 例如,我們假設係數為均值0和方差σ2的高斯分布或係數為方差σ2的拉普拉斯分布。

在這種情況下,我們可以通過選擇方差來控制正則化的影響。 較小的值導致較小的係數。 但是,σ2的較小值可能會導致擬合不足。

如果λ= 1 /σ2,則高斯先驗等於l2

如果λ=√2/σ,則拉普拉斯先驗等於l1

主要思想是在使我們達到l1和l2正則化的線性回歸係數上選擇貝葉斯先驗。 讓我們看看它是如何工作的。

正態分佈(高斯)先驗

我們將從正態分佈開始,並在每個??值之前放置乙個零均值正態分佈,所有方差都等於?2。 根據公式:

並根據公式:

和我們的先前公式填充似然函式:

我們刪除了許多常量。我們可以看到,這與(l2正則化)相同,其中? = ?2 / ?2假定為在常規線性模型中為常數) 回歸,我們就可以選擇我們的先驗。 我們可以通過更改adjust來調整所需的正則化量。 同樣,我們可以調整要加權先驗係數的數量。 如果我們有乙個很小的方差大large,那麼係數將非常接近0; 如果我們有很大的方差(小的?,那麼係數不會受到太大的影響(類似於我們沒有任何正則化的情況)。

拉普拉斯先驗

首先,讓我們回顧一下拉普拉斯分布的密度(通常在初學者概率類中沒有引入的密度):

有時將其稱為「雙指數」分布,因為它看起來像是兩個背對背放置的指數分布(使用位置引數適當縮放)。 它在形式上也與我們的高斯十分相似,

與所有小係數一樣,從零均值拉普拉斯先驗開始,就像我們在上一節中所做的那樣:

與l2正則化相比,laplacean先驗的效果略有不同。 l1促進稀疏性,而不是防止任何係數過大(由於平方)。 也就是說,將一些係數歸零。 如果您先檢視拉普拉斯(laplacean)的密度,然後平均密度會急劇增加,則這是有道理的。

直觀地看待此問題的另一種方法是比較兩個解決方案4。讓我們假設我們正在估計回歸中的兩個係數。 在l2正則化中,解? =(1,0)具有與? =(12√,12√)相同的權重,因此它們均被平等對待。 在l1正則化中,相同的兩種解決方案更傾向於稀疏的一種:

因此,l2正則化沒有任何特定的內建機制來支援歸零係數,而l1正則化實際上偏愛這些稀疏解。

拉普拉斯(Laplace)分布

laplace分布的概率密度函式的形式是這樣的 一般 的取值為0,所以形式如下 它是由兩個指數函式組成的,所以又叫做雙指數函式分布 double exponential distribution 均值和方差 均值的求解,若x的概率密度函式為f x 那麼x的均值為均值為0。方差根據 使用pyplot畫...

2 拉普拉斯分布

2 拉普拉斯分布 一元拉普拉斯分布的密度函式為 p x 12 exp x p x frac exp frac p x 2 1 e xp x 從函式影象看,拉普拉斯密度函式是個尖峰曲線,關於 mu 對稱,在 mu 處函式值最大,遠離中心點 mu 函式值快速下降,下降速度是指數。mu 稱為位置引數,si...

拉普拉斯運算元 拉普拉斯方程之美

物理學有它自己的羅塞塔石碑。它們是連線宇宙間看上去不同的領域的天書,它們將任何物理學分支同純粹數學聯絡起來。拉普拉斯方程就是其中之一 它幾乎無處不在 在電磁學 在流體力學 在引力 在熱學 在肥皂泡 拉普拉斯方程是以法國數學家pierre simon laplace 皮埃爾 西蒙 拉普拉斯 的名字命名...