理解什麼是線性回歸
線性回歸也被稱為最小二乘法回歸(linear regression, also called ordinary least-squares (ols) regression)。它的數學模型是這樣的:
y = a+ b* x+e
其中,a被稱為常數項或截距;b被稱為模型的回歸係數或斜率;e為誤差項。a和b是模型的引數。
當然,模型的引數只能從樣本資料中估計出來:
y'= a' + b'* x
我們的目標是選擇合適的引數,讓這一線性模型最好地擬合觀測值。擬合程度越高,模型越好。
模型估計出來後,我們要回答的問題是:
1. 我們的模型擬合程度如何?或者說,這個模型對因變數的解釋力如何?(r2)
2. 整個模型是否能顯著**因變數的變化?(f檢驗)
3. 每個自變數是否能顯著**因變數的變化?(t檢驗)
ssa代表由自變數x引起的y的離差平方和,即回歸平方和,代表回歸模型的解釋力;sse代表由隨機因素引起的y的離差平方和,即剩餘平方和,代表回歸模型未能解釋的部分;sst為總的離差平方和,即我們僅憑y的平均值去估計y時所產生的誤差。
用模型能夠解釋的變異除以總的變異就是模型的擬合程度:
r2=ssa/sst=1-sse
r2(r的平方)也被稱為決定係數或判定係數。
第二個問題,我們的模型是否顯著**了y的變化?
假設y與x的線性關係不明顯,那麼ssa相對sse占有較大的比例的概率則越小。換句話說,在y與x無線性關係的前提下,ssa相對sse的佔比越高的概率是越小的,這會呈現一定的概率分布。統計學家告訴我們它滿足f分布,就像這樣:
如果ssa相對sse佔比較大的情況出現了,比如根據f分布,這個值出現的概率小於5%。那麼,我們最好是拒絕y與x線性關係不顯著的原始假設,認為二者存在顯著的線性關係較為合適。
第三個問題,每個自變數是否能顯著**因變數的變化?換句話說,回歸係數是否顯著?
回歸係數的顯著性檢驗是圍繞回歸係數的抽樣分布(t分布)來進行的,推斷過程類似於整個模型的檢驗過程,不贅言。
實際上,對於只有乙個自變數的一元線性模型,模型的顯著性檢驗和回歸係數的檢驗是一致的,但對於多元線性模型來說,二者就不能等價了。
from:
機器學習入門(基礎知識 線性回歸演算法)
1.3泛化能力 過擬合 欠擬合 1.4交叉驗證法 線性回歸 監督學習 supervised learning 非監督學習 unsupervised learning 梯度下降法 通過一步一步迭代,邊訓練資料,邊調整引數,計算偏導,使回歸使終是保持梯度下降的,即最優,來得到最小化的損失函式和此時的模型...
基礎知識 類基礎之再回歸
類的const成員函式 在函式體中不能修改類的任何資料成員 建構函式 合成預設建構函式 如果自定了建構函式,則編譯器不會為我們合成預設建構函式 如果類的成員有引用 常量 沒有預設建構函式的類,則編譯器不會合成預設建構函式,我們必須自定義 預設建構函式 一般要求 如果定義了其他建構函式,那麼最好也提供...
線性代數基礎知識
1.1 二階行列式 1.2 三階行列式 1.3 排列的逆序數 1.4 n階行列式 2.行列式的性質 行列式與它的轉置行列式相等。性質2 互換行列式的兩行 列 行列式變號。性質3 行列式的某一行 列 中所有的元素都乘以同乙個倍數k,等於用數k乘以此行列式。性質4 行列式中如果有兩行 列 元素成比例,則...