2.線性回歸的原理
3.線性回歸損失函式、代價函式、目標函式
4.優化方法(梯度下降法、牛頓法、擬牛頓法)
5.線性回歸的評估指標
6.sklearn引數詳解
欠擬合由於學習能力低下。
解決方法:1.增加特徵項。 2.增加多項式特徵。 3.減少正則化引數。
交叉驗證
又通常稱為「k折交叉驗證」。將資料均等劃分為k個,然後每次使用不同的子集作為測試集,其餘的作為訓練集。執行k次。這樣可以得到這k個測試結果的均值。k最常見的取值是10。其他常取5,20等。
將資料均分也有多種劃分方式,所以也要考慮到誤差原因。同理多次劃分,取均值。e.g.,「10次10折交叉驗證。」
若樣本數m=k,特例:留一法。結果精準,但是資料量大時,計算開銷大。「沒有免費的午餐定理nfl」
在統計學中,線性回歸(linear regression)是利用稱為線性回歸方程的最小二乘函式對乙個或多個自變數和因變數之間關係進行建模的一種回歸分析。這種函式是乙個或多個稱為回歸係數的模型引數的線性組合。只有乙個自變數的情況稱為簡單回歸,大於乙個自變數情況的叫做多元回歸。
r^2 = 1 - ssr/sst
綜合考慮了**資料和原始資料的誤差以及原始資料的離散程度。消除了原始資料離散程度的影響。
r^2 越接近1,表示方程變數對y的解釋能力越強,模型對資料擬合越好。
r^2 越接近0,表明模型擬合越差。
若r^2<0,資料可能不存在任何線性關係。
缺點:資料集的樣本越大,r^2越大,所以,不同資料集的模型結果比較會有一定的誤差
adjusted r-square:degree-of-freedomadjusted coefficient of determination
校正決定係數。加入樣本資料和特徵資料評價指標,消除了樣本資料和特徵數量的影響。
class sklearn.linear_model.linearregression(fit_intercept=true, normalize=false, copy_x=true, n_jobs=none)
引數說明:
更多詳細引數,檢視官方文件。
線性回歸演算法梳理
機器學習的一些概念 有監督 有目標值y 無監督 無目標值y 泛化能力 在 集上的 能力 過擬合欠擬合 方差和偏差以及各自解決辦法 測試集 能力不好叫欠擬合,在測試集上ok,訓練集ng 方差能解決過你和問題,偏差能解決欠擬合問題 交叉驗證 將樣本分為n分,按照一定的劃分方式劃分訓練集和測試集,互相交叉...
線性回歸演算法梳理
有監督 資料做過標記 無監督 對原始資料進行處理,未做標記 泛化能力 由訓練資料建立的模型對同類問題的解決能力 過擬合 模型過於複雜導致解決問題能力差 欠擬合 模型過於簡單導致擬合資料的能力差 方差和偏差以及各自解決辦法 交叉驗證 當資料比較少時,將資料分成n份,取n 1份做訓練集,1份做驗證集,改...
線性回歸演算法梳理
監督學習 資料集中的每個樣本有相應的標籤,根據這些樣本做出 無監督學習 資料集中沒有標籤。無監督學習的任務是從給定的資料集中,找出可能具有的結構。泛化能力 指乙個機器學習演算法對於沒有見過的樣本的識別能力。過擬合欠擬合 方差和偏差以及各自解決辦法 欠擬合 模型沒有很好地捕捉到資料特徵,不能夠很好地擬...