學習筆記之多項式回歸和Pipeline及偏差和方差

2021-10-23 01:57:29 字數 1501 閱讀 1845

研究乙個因變數與乙個或多個自變數間多項式的回歸分析方法,稱為多項式回歸(polynomial regression)。多項式回歸是線性回歸模型的一種,其回歸函式關於回歸係數是線性的。其中自變數x和因變數y之間的關係被建模為n次多項式。

在使用sklearn建模時,我們可以考慮把簡單的資料處理、特徵處理、建模做成流水線的形式。此時用到pipeline功能.

pipeline就是將這些步驟都放在一起。引數傳入乙個列表,列表中的每個元素是管道中的乙個步驟。每個元素是乙個元組,元組的第乙個元素是名字(字串),第二個元素是例項化。

模型誤差 = 偏差 + 方差 + 不可避免的誤差(噪音)。一般來說,隨著模型複雜度的增加,方差會逐漸增大,偏差會逐漸減小。

偏差(bias):偏差衡量了模型的**值與實際值之間的偏離關係。例如某模型的準確度為96%,則說明是低偏差;反之,如果準確度只有70%,則說明是高偏差。

方差(variance):方差描述的是訓練資料在不同迭代階段的訓練模型中,**值的變化波動情況(或稱之為離散情況)。從數學角度看,可以理解為每個**值與**均值差的平方和的再求平均數。通常在模型訓練中,初始階段模型複雜度不高,為低方差;隨著訓練量加大,模型逐步擬合訓練資料,複雜度開始變高,此時方差會逐漸變高。

偏差和方差的權衡關係:

降低模型複雜度

減少資料維度;降噪

增加樣本數

使用驗證集

正則化

完整**

參考文章:

多項式回歸

import numpy as np import matplotlib.pyplot as plt x np.random.uniform 3,3,size 100 x x.reshape 1,1 y 0.5 x 2 x 2 np.random.normal 0,1,100 plt.scatter...

多項式回歸

多項式回歸 import torch import numpy defmake features x 獲取 x,x 2,x 3 的矩陣 x x.unsqueeze 1 將一維資料變為 n,1 二維矩陣形式 return torch.cat x i for i in range 1 4 1 按列拼接 ...

多項式回歸

線性回歸適用於資料成線性分布的回歸問題,如果樣本是非線性分布,線性回歸就不再使用,轉而可以採用非線性模型進行回歸,比如多項式回歸 多項式回歸模型定義 與線性模型,多項式模型引入了高次項 y w 0 w1 x w2 x2 w 3x3 wnxn y w 0 w 1x w 2x 2 w 3x 3 w nx...