這裡大家可能已經發現了,到目前為止,我們沒有提到通常課本裡所說的什麼亂七八糟的正態分佈啦,誤差項啦,這其實是屬於線性回歸的概率解釋。現在我們就來看一看線性回歸的概率模型解釋。
我們講線性回歸時用到了均方誤差損失,但沒有提到為什麼損失函式要具有均方誤差的形式。概率解釋就給你其中乙個理由。
下面我們假設輸入變數和輸出變數之間通過以下方程相關聯,
\[\begin
y^=\theta^ x^+\epsilon^
\end
\]其中,誤差項\(\epsilon^\) 表示沒有被模型考慮到的特徵,比如說,除了房子面積之外,是否學區房等其他我們沒有考慮到的可能影響房價的因素,以及還表示一些隨機雜訊。
我們進一步假設各個誤差項之間是獨立同分布(independently and identically distributed,i.i.d.)於\(\mathcal(0, \sigma)\) 。具體的,這個誤差項的密度函式為,
\[\begin
p\left(\epsilon^\right)=\frac \sigma} \exp \left(-\frac\right)^}}\right)
\end
\]這也就意味著,
\[p\left(y^|x^;\theta\right)=\frac \sigma} \exp \left(-\frac-\theta^x^\right)^}}\right)
\]我們這裡\(p\left(y^|x^;\theta\right)\) 之所以用分號,是因為\(\epsilon^\) 是引數,我們這裡沒有把引數當成隨機變數。也可以直接將輸出的分布記為$y|x;\theta\sim \mathcal(0, \sigma) $ 。
給定資料設計矩陣\(x\) (design matrix)和引數\(\theta\) 之後。所有輸出的概率可以記為\(p\left(\vec|x;\theta\right)\) 。這時,我們通常把它看作是\(p\left(\vec|x;\theta\right)\) 的函式。當我們想要把它明確看成引數\(\theta\) 的函式時,通常用另乙個符號表示,
\[l(\theta)=l(\theta;x,\vec)=p\left(\vec|x;\theta\right)
\]這叫做資料的似然函式(likelihood function)。
進一步,我們有,
\[\begin
\begin l(\theta) &=\prod_^ p\left(y^ | x^ ; \theta\right) \\
&=\prod_^ \frac \sigma} \exp \left(-\frac-\theta^ x^\right)^}}\right)
\end
\end
\]第乙個等式是由於各個誤差項之間的獨立性。
現在若問在給定資料\(x\) 與\(\vec\) 下,哪個引數才是最好的呢? 乙個自然的想法是:在哪個引數下,資料\(x\) 與\(\vec\) 更有可能出現,則這個引數就是最好的,也就是把最大化似然函式\(l(\theta)\) 的那個引數看成是最好的。注意我們這裡把引數看成是變的。
給了將輸入資料\(x\) 與\(\vec\) 聯絡起來的概率模型,不僅可以最大化\(l(\theta)\) ,事實上,可以最大化任何乙個關於\(l(\theta)\) 的增函式。因此我們一般最大化對數似然函式(log likelihood function),也就是,
\[\begin \ell(\theta) &=\log l(\theta) \\ &=\log \prod_^ \frac \sigma} \exp \left(-\frac-\theta^ x^\right)^}}\right) \\ &=\sum_^ \log \frac \sigma} \exp \left(-\frac-\theta^ x^\right)^}}\right) \\ &=m \log \frac \sigma}-\frac} \cdot \frac \sum_^\left(y^-\theta^ x^\right)^
\end
\]從最後乙個等式可以看到最大化對數似然函式,正是最大化負的平方誤差函式損失函式(忽略係數與沒影響的常數)。完美解釋了之前為什麼要用平方誤差函式:它對應於最大似然引數估計。
注意,概率模型的假設,對於最小化均方誤差函式卻不是必須的。就算沒有這個解釋,也存在其他解釋來證明最小均方誤差損失函式的合理性。還注意到假設中模型的方差對最後估計的引數沒有影響。這點我們以後在指數分布族和一般線性模型中還會再講。
總結一下,在相應概率模型假設下,前面的最小化均方誤差過程就對應於尋找引數的最大似然估計。
放鬆一下。
機器學習之線性回歸
訓練樣例 x y 輸入變數 特徵 x ps n 1行,1 列 輸出變數 目標變數 y訓練樣例總數 m 特徵維度 n第 i 個訓練樣例 x i y i 所有訓練樣例的輸入變數組成的矩陣 x ps m行,n 1 列,每行是 x i t 所有訓練樣例的輸出變數組成的矩陣 y ps m行,1 列 下表是某地...
機器學習之線性回歸
線性回歸就是用線性方程去擬合一組資料,x 的最高端是1,用方程可以表示為 h x 0 1x1 n xn我們令 x0 1則上式可以改寫為 h x i 0n ixi tx 既然是擬合的模型,則肯定會存在不符合該模型的點,第 i 個點的真實值與模型 的值之間的差稱為誤差 e h x i y i 假設總共有...
機器學習之線性回歸
線性回歸分析 regression analysis 其資料集是給定乙個函式和他的一些座標點,然後通過回歸分析的演算法,來估計原函式的模型,求得最符合這些資料集的函式解析式。然後我們就可以用來預估未知資料,輸入乙個自變數便會根據這個模型解析式輸出因變數,這些自變數就是特徵向量,因變數即為標籤,而且標...