要理解最優解和損失函式,我們需要先弄明白什麼是誤差。
以簡單線性回歸為例,如下圖所示,青色資料樣本為真實值y
yy,直線上同一x
xx位置的紅色樣本點為**值y
^\hat
y^,它們之間的空間距離r=∣
y−y^
∣r=|y-\hat|
r=∣y−y
^∣就是誤差,即真實樣本點與**樣本點之間的距離。那麼,如果我們把直線上每乙個樣本點的誤差相加求和,就可以得到乙個模型的整體誤差。
根據上面的說明,我們明白了整體誤差的概念,但它只是某乙個時刻的。如果我們再對圖中直線進行平移或改變角度,各樣本之間的距離就會發生變化,這樣又可以得到新的整體誤差值。
最終,經過n
nn次變化計算,我們能得到模型在n
nn個不同時刻的整體誤差值。而其中整體誤差值最小的時刻對應的模型,就是我們要找的「最優解」。這一時刻,也是直線擬合資料樣本點效果最好的時刻。簡而言之,「最優解」就是我們能找到的整體誤差最小的模型。
損失函式就是用來求解模型最優解的公式。
要求最優解,就得先定義乙個loss損失函式。對於線性回歸來說,損失函式稱為mse(mean squared error)平方均值誤差,先求平方再求平均。其表示式為los
s=ms
e=1m
∑im(
yi−y
i^)2
loss=mse=\frac\sum_^(y_i-\hat)^2
loss=m
se=m
1∑i
m(y
i−y
i^
)2,m
mm表示總樣本數,i
ii代表1到m
mm之間的任意一條樣本,(yi
−yi^
)2(y_i-\hat)^2
(yi−y
i^
)2表示求每條樣本真實值與**值差的平方(即每個樣本點誤差/損失的平方),然後對所有結果進行加和,再除以樣本總數m
mm,得到平均均值誤差。
線性回歸的損失函式與邏輯回歸的損失函式
xi yi 我們有如下的擬合直線 yi xi構建的損失函式是 c i 1 n yi yi 2表示每乙個訓練點 x i,yi 到擬合直線yi xi的豎直距離的平方和,通過最小化上面的損失函式可以求得擬合直線的最佳引數 這裡的損失函式之所以使用平方形式,是使用了 最小二乘法 的思想,這裡的 二乘 指的是...
線形回歸與損失函式
假設 特徵 和 結果 都滿足線性。即不大於一次方。這個是針對 收集的資料而言。收集的資料中,每乙個分量,就可以看做乙個特徵資料。每個特徵至少對應乙個未知的引數。這樣就形成了乙個線性模型函式,向量表示形式 這個就是乙個組合問題,已知一些資料,如何求裡面的未知引數,給出乙個最優解。乙個線性矩陣方程,直接...
線性回歸演算法(二)
本節內容是衡量線性回歸演算法的指標,導圖如下 這個這個mse還有乙個問題,就是量綱不同。資料集是用萬元做單位的,但是mse確實萬元的平方,顯然不同量綱。這個原理跟為什麼有了標準差,還要有方差是一樣的,都是為了統一量綱。所以,我們的解決方法跟方差和標準差是一樣的,讓mse去開方,得到rmse 另外還要...