從統計學角度來看深度學習(1) 遞迴廣義線性模型

2021-09-06 23:29:01 字數 3315 閱讀 3461

本文得到了原英文作者shakir mohamed的授權同意,由王小寧翻譯、馮凌秉和朱雪寧審校。感謝他們的支援和幫助。

深度學習及其應用已經成為實用機器學習的乙個關鍵工具。神經網路和許多現有的統計學、機器學習方法有同等重要的地位,我將在這篇文章中探索其中的乙個觀點。

看待深度神經網路,我們這裡選擇乙個特別的角度:就是它可以被看做是乙個遞迴的廣義線性模型。廣義線性模型作為概率建模的基石之一,在實驗科學的應用中無處不在,並且極其實用。這篇文章集中討論前饋神經網路(feed forward neural network),而關於回饋式神經網路(recurrent network)與前者的統計聯絡,我將在以後文章中討論。

廣義線性模型(glms)

基本的線性回歸模型是乙個從由自變數x組成的p維空間到一組因變數y組成的空間的線性對映。具體地,該線性對映是指通過一組權重(或回歸係數) 對x進行加權,並與截距項 的和。線性回歸的輸出可以是多元的,但在本文中假定其輸出為標量。完整的概率模型假定上述線性模型受到高斯噪音的干擾(一般假設其方差未知)。

η=βtx+β0

y=η+ϵϵ∼n(0,σ2)

在此公式中, η是該模型的系統成分, ε是隨機擾動項。廣義線性模型(glms) [2]使我們能夠對這一模型進行擴充套件,允許因變數的分布不侷限於高斯分布而擴充套件到更廣泛的分布(例如典型的指數分布族)。在這種情況下,我們可以寫出廣義回歸問題,結合係數和偏置為更緊湊的表示法,如:

η=β⊤x,β=[β^,β0],x=[x^,1]

e[y]=μ=g−1(η)

其中g(•)是連線函式,使我們能夠從自然引數η求出均值引數μ 。如果把這個連線函式定義成是邏輯斯蒂函式,那麼均值引數對應著服從伯努利分布的y等於1或0的概率。

有很多其他的連線函式讓我們能夠為目標(響應)變數y的分布做出不同假設。在深度學習中,鏈結函式一般指啟用函式,我在下表中列出了它們在兩個領域中的名稱。從這個表中我們可以看出,很多流行的方法在神經網路與統計學中是一樣的,但是在相關文獻中(有時)有著完全不一樣的名字,如統計中的多項分類回歸(multimonial)和深度學習中的softmax分類,或是深度學習中的整流器以及統計中的擷取回歸模型,它們其實是一樣的。

目標型別回歸鏈結鏈結的逆啟用

實數先行身份身份

二元邏輯斯蒂

邏輯斯蒂logμ1–μ

s型σ11+exp(−η)

s型二元

概率逆的高斯累計分布函式φ−1(μ)

高斯分布函式φ(η)

概率二元

耶貝爾分布

compl. log-loglog(−log(μ))

耶貝爾累計分布函式e−e−x

二元邏輯斯蒂

雙曲正切tanh(η)

tanh

分類的多項式

多項式邏輯斯蒂ηi∑jηj

softmax

計數泊松

logμ

exp(ν)

計數泊松

(√μ)

ν2非負的

伽瑪倒數1μ

1ν稀疏的

擷取回歸

最大值max(0;ν)

糾正線性單位

順序序數

累積的邏輯斯蒂回歸

遞迴廣義線性模型

廣義線性模型的形式十分簡單:它們求出輸入和權重β做線性組合,並把結果傳入乙個簡單的非線性函式。在深度學習中,這樣的基本組成部件被稱為。很容易看出,我們可以方便地重複使用這樣的基本部件,以形成更複雜的分層非線性回歸函式。這個基本部件的迴圈利用就是我們說深度學習模型有很多層的原因以及它名字中深度的由來。

給定 層上的線性組合結果η和反連線函式(或啟用函式)f

,我們將回歸函式h

定義為:

hl(x)=fl(ηl)

那麼我們可以很容易地通過反覆應用這一基本部件定義乙個遞迴的glm

e[y]=μl=hl∘…∘h1∘ho(x)

學習和估計

給定這些模型的具體形式後,接下來就是尋找乙個訓練方法,即對每一層回歸引數β的估計。深度學習對這個問題有著很深刻的理解,並展現了這樣的模型如何擴充套件到非常大的超高維資料集上。

乙個直接的方法是使用負對數概率作為損失函式從而進行極大似然估計[3]:

l=–logp(y|μl)

如果使用高斯分布作為似然函式,我們就會得到平方誤差損失函式;如果使用伯努利分布,我們得到的是交叉熵損失函式。深度神經網路中的估計或學習正是遞迴glms中的極大似然估計。現在,我們可以通過計算引數的梯度並使用梯度下降法來求解回歸係數了。深度學習現在常用隨機近似(隨機梯度下降)等方法訓練,通過鏈式法則計算整個模型的導數(即反向傳播),並以強大的分布式集群和gpu執行計算。這樣的模型能夠在至少數百萬條記錄的資料上訓練含有數百萬個引數的超大模型 [4]。

從極大似然理論,我們知道這樣估計很容易過擬合。不過我們可以引入正則項,使用帶懲罰項的回歸收縮引數,或者使用貝葉斯回歸。正則項的重要性也已在深度學習體現出來,對此進一步的模擬思考也可能是有幫助的。

總結

深度前饋神經網路直接對應於統計中的遞迴廣義線性模型和核函式回歸- 認識這點能讓深度網路不那麼神秘,也不必依賴於與大腦工作方式的模擬。。訓練過程是(正則化)極大似然估計,而我們現在有豐富的工具來處理大規模的真實資料。統計觀點下的深度學習包含了兩個領域內的大量相似知識,這可能對進一步提公升效率與理解回歸問題有幫助。我認為,記住這點對每個人都大有裨益。當然也存在著圖模型與深度學習的聯絡,或者是動力系統與遞迴神經網路的聯絡。我希望能在未來也好好思考這些關係。

參考文獻

[1]christopher m bishop, neural networks for pattern recognition, , 1995

[2]peter mccullagh, john a nelder, generalized linear models., , 1989

[3]peter j bickel, kjell a doksum, mathematical statistics, volume i, , 2001

[4]leon bottou, stochastic gradient descent tricks, neural networks: tricks of the trade, 2012

從統計學的角度看線性回歸

線性回歸是機器學習中常用的一種監督學習方法。常被用於選擇重要特徵和構造基學習器。本文將用統計學中極大似然估計和貝葉斯統計的方法推導線性回歸及正則化。極大似然估計的核心思想是找出一組引數值,使得在該引數值下,訓練樣本被觀察到的概率最大。在以下推導中,w 為回歸係數,w w0,w1,w m 1 t t ...

從統計學看NLP之概述(1)

在我看來nlp的所有思想都是基於統計學來的,不管是hmm,crf還是說目前火熱的神經網路,而目前入行nlp領域的同學可能大部分都沒有接觸過其中的統計學原理,所謂的神經網路沒可解釋性也導致大家沒興趣去研究為什麼nlp的神經網路要這麼去設計。說到機器翻譯,目前大部分都是採用seq2seq的模型,如果你是...

組隊學習可汗學院統計學1

12 總體均值與樣本均值,總體值不好得 13 計算了乙個均值和方差 14 樣本方差用s 2 表示,按照和計算總體方差一樣的計算方法由於均值可能 與正常有偏移,使得方差的計算變小。15 標準差為方差開根號,所以方差的表示是標準差的平方,舉了例子算標準差 16 將方差計算公式進行化簡然後不用先求均值進行...