1.簡單介紹線性回歸
線性回歸就是利用的樣本d=(
xi,y
j),i
=1,2
,3...n,
xid=(x_i,y_j),i =1,2,3...n,x_i
d=(xi
,yj
),i=
1,2,
3...
n,xi
是特徵資料,可能是乙個,也可能是多個,通過有監督的學習,學習到由x
xx到y
yy的對映h
hh,利用該對映關係對未知的資料進行預估,因為y
yy為連續值,所以是回歸問題。
2. 線性回歸的假設函式是什麼形式?
線性回歸的假設函式(θ
0θ_0
θ0表示截距項,x0=
1x_0=1
x0=
1,方便矩陣表達):
其中θ ,x
θ,xθ,
x都是列向量
3. 線性回歸的代價(損失)函式是什麼形式?
4. 簡述嶺回歸與lasso回歸以及使用場景。
本質:
這兩種回歸均通過在損失函式中引入正則化項來達到目的:
線性回歸的損失函式:
本來lasso回歸與嶺回歸的解空間是全部區域,但通過正則化新增了一些約束,使得解空間變小了,甚至在個別正則化方式下,解變得稀疏了。
如圖所示,這裡的w1,
w2w_1,w_2
w1,w2
都是模型的引數,要優化的目標引數,那個紅色邊框包含的區域,其實就是解空間,正如上面所說,這個時候,解空間「縮小了」,你只能在這個縮小了的空間中,尋找使得目標函式最小的w1,
w2w_1,w_2
w1,w2
左邊圖的解空間是圓的,是由於採用了l2l2
l2範數正則化項的緣故,右邊的是個四邊形,是由於採用了l1l1
l1範數作為正則化項的緣故,大家可以在紙上畫畫,l2l2
l2構成的區域一定是個圓,l1l1
l1構成的區域一定是個四邊形。
再看看那藍色的圓圈,再次提醒大家,這個座標軸和特徵(資料)沒關係,它完全是引數的座標系,每乙個圓圈上,可以取無數個w1,
w2w_1,w_2
w1,w2
,這些w1,
w2w_1,w_2
w1,w2
有個共同的特點,用它們計算的目標函式值是相等的!那個藍色的圓心,就是實際最優引數,但是由於我們對解空間做了限制,所以最優解只能在「縮小的」解空間中產生。
藍色的圈圈一圈又一圈,代表著引數w1,
w2w_1,w_2
w1,w2
在不停的變化,並且是在解空間中進行變化(這點注意,圖上面沒有畫出來,估計劃出來就不好看了),直到脫離了解空間,也就得到了圖上面的那個w
∗w^*
w∗這便是目標函式的最優引數。
對比一下左右兩幅圖的w
∗w^*
w∗,我們明顯可以發現,右圖的w
∗w^*
w∗的w
1w_1
w1分量是0,有沒有感受到一絲絲涼意?稀疏解誕生了!是的,這就是我們想要的稀疏解,我們想要的簡單模型。l1l1
l1比l 2l2
l2正則化更容易產生稀疏矩陣。
5. 線性回歸要求因變數服從正態分佈嗎?
線性回歸的假設前提是雜訊服從正態分佈,即因變數服從正態分佈。但實際上難以達到,因變數服從正態分佈時模型擬合效果更好。
線性回歸模型 線性回歸模型
回歸的思想和分類有所不一樣,分類輸出的結果為離散的值,回歸輸出的是乙個連續型的值。線性回歸的思想就是試圖找到乙個多元的線性函式 當輸入一組特徵 也就是變數x 的時候,模型輸出乙個 值y h x 我們要求這個 值盡可能的準確,那麼怎麼樣才能做到盡可能準確呢?其中 表示實際值,表示 值 其中 表示實際值...
線性回歸(標準回歸)
今天我們來討論機器學習的另乙個領域 首先我們來討論利用線性回歸來 數值型資料。利用線性回歸進行 的過程就是求解回歸係數的過程,求出回歸係數後進行係數與特徵值乘積求和即可,這裡我們使用最小二乘法進行求解 ex0.txt 提取碼 dbe2 def loaddataset filename numfeat...
回歸學習 線性回歸
匯入資料 from sklearn.datasets import load boston boston load boston print boston.descr 資料分割 from sklearn.cross validation import train test split import ...