基本結構
y =w
t⋅x+
by = w^t\cdot x + b
y=wt⋅x
+b資料集
通常收集一系列的真實資料,如果多棟房屋的真實****和他們對應的面積和房齡。
我們希望在資料集上尋找模型引數來使得****和真實**誤差最小。
該資料集被稱為訓練資料集,每個房屋被稱為乙個樣本,真實的售出**叫做標籤,用來**標籤的因素叫做特徵,特徵用來表示樣本的特點。
p ri
ce=w
area
⋅are
a+wa
ge⋅a
ge+b
\mathrm = w_} \cdot \mathrm + w_} \cdot \mathrm + b
price=
ware
a⋅a
rea+
wage
⋅ag
e+b損失函式
用來計算****和真實**之間的誤差。通常我們要求誤差應該是非負數,且資料越小表示誤差越小,我們一般選擇平方函式作為誤差函式
如下是單個樣本得到的誤差值
l (i
)(w,
b)=1
2(y^
(i)−
y(i)
)2
,l^(\mathbf, b) = \frac \left(\hat^ - y^\right)^2,
l(i)(w
,b)=
21(
y^(
i)−y
(i))
2,如下是所有樣本得到的誤差值的平均,可以知道該誤差是關於w和b的乙個函式
l (w
,b)=
1n∑i
=1nl
(i)(
w,b)
=1n∑
i=1n
12(w
⊤x(i
)+b−
y(i)
)2
.l(\mathbf, b) =\frac\sum_^n l^(\mathbf, b) =\frac \sum_^n \frac\left(\mathbf^\top \mathbf^ + b - y^\right)^2.
l(w,b)
=n1
i=1∑
nl(
i)(w
,b)=
n1i
=1∑n
21
(w⊤x
(i)+
b−y(
i))2
.對函式進行優化——隨機梯度下降
如何將誤差最小化,即將函式求得最小值——高數中我們學到的隨著梯度的反方向函式值減小最快。
如果最小化問題的解可以通過公式表示出來,則這類解叫解析解。
然而大多數模型並沒有解析解,只能通過有限次的迭代模型引數來盡可能降低損失函式值,這類稱為數值解。
在求數值解的優化演算法中,小批量隨機梯度下降使用比較廣泛。
小批量隨機梯度下降
先選取一組模型引數的初始值,如隨機選取;接下來對引數進行多次迭代,使每次迭代都可能降低損失函式的值。在每次迭代中,先隨機均勻取樣乙個由固定數目訓練資料樣本所組成的小批量(mini-batch)b
\mathcal
b,然後求小批量中資料樣本的平均損失有關模型引數的導數(梯度),最後用此結果與預先設定的乙個正數的乘積作為模型引數在本次迭代的減小量。
( w,
b)←(
w,b)
−η∣b
∣∑i∈
b∂(w
,b)l
(i)(
w,b)
(\mathbf,b) \leftarrow (\mathbf,b) - \frac|} \sum_} \partial_,b)} l^(\mathbf,b)
(w,b)←
(w,b
)−∣b
∣ηi
∈b∑
∂(w,
b)l
(i)(
w,b)
關於幾種梯度下降的分析:
總結來講,三種梯度下降模型存在如下對比
批量梯度下降
每次拿所有樣本更新
優點:梯度準確朝向最優解方向(假設沒有區域性解)
缺點:樣本數很多,訓練過程慢
隨機梯度下降
每次拿乙個樣本更新
優點:訓練速度快
缺點:準確度低,可能存在雜訊樣本,導致迭代沒有朝著優化方向行進。
小批量梯度下降
拿區域性樣本更新
是上面兩種方案的折中,使用範圍廣。
如何使用?
線性回歸模型 線性回歸模型
回歸的思想和分類有所不一樣,分類輸出的結果為離散的值,回歸輸出的是乙個連續型的值。線性回歸的思想就是試圖找到乙個多元的線性函式 當輸入一組特徵 也就是變數x 的時候,模型輸出乙個 值y h x 我們要求這個 值盡可能的準確,那麼怎麼樣才能做到盡可能準確呢?其中 表示實際值,表示 值 其中 表示實際值...
線性回歸模型 線性回歸 vs 結構方程模型
對線性回歸和結構方程模型進行簡單的刨析比較,拋開統計學方面的理論,盡量說得通俗易懂些。線性回歸 regression 與結構方程模型 structural equation modeling 是用來驗證變數間的因果關係時,最經常使用的方法。本文比較下兩者的區別,拋開具體統計學方面的理論,盡量說得通俗...
01 線性模型 線性回歸與邏輯回歸
線性模型 試圖學得乙個屬性的線性組合來進行 的函式 f x w 1x 1 w 2x 2 w dx d b 向量模式 f x w tx b 簡單 基本 可解釋性好 可看出每部分屬性所做的貢獻 可用於分類和回歸 多個特徵 h x sum theta ix i theta tx 損失函式mse j the...