一類機器學習演算法的思路:通過分析問題,找到問題的損失函式或者效用函式,通過最優化損失函式或者效用函式,確定機器學習的演算法模型
如圖所示,對於樣本,求一條擬合曲線:\(y=ax+b\)
\(\hat^\)為**的某個樣本\(x^\)的**值,而\(y^\)為樣本的真實值。
我們希望\(\hat^\)和\(y^\)的差距盡量小:
\[(y^ - \hat^)^2
\]此處使用誤差的平方而不使用誤差的絕對值是因為絕對值函式不是處處可導的,而誤差平方也無形之中放大了最大的誤差,有利於更好的衡量演算法
考慮所有的樣本:
\[\sum_^(^ - \hat^)^2
\]把 \(\hat^=ax^+b\) 代入上式:
\]對b求偏導數:
\[\frac = \sum_^2(^ - ax^-b)(-1) = 0
\]\[\sum_^(^ - ax^-b) = 0
\]\[\sum_^^ - a\sum_^x^-\sum_^b = 0
\]\[\sum_^^ - a\sum_^x^-mb = 0
\]\[mb = \sum_^^ - a\sum_^x^
\]\[b = \overline -a\overline
\]對a求偏導數:
\[\frac = \sum_^2(^ - ax^-b)(-x^) = 0
\]\[\sum_^(^ - ax^-b)(x^) = 0
\]\[\sum_^(^ - ax^-b)(x^) = 0
\]代入 \(b = \overline -a\overline\)
\[\sum_^(^ - ax^-\overline +a\overline)(x^) = 0
\]\[\sum_^(x^^ - a(x^)^2-x^\overline +a\overlinex^) = 0
\]\[\sum_^(x^^-x^\overline) - \sum_^(a(x^)^2 -a\overlinex^) = 0
\]提出a:
\[a = \frac^(x^^-x^\overline)}^((x^)^2 -\overlinex^)}
\]根據:
\[^x^\overline} = \overline^x^} = m\overline \overline= \overline^y^} = ^\overliney^}
\]化簡上式,最終得:
\[a =\frac^(x^ -\overline)(y^ -\overline)}^(x^ -\overline)^2}
\]
簡單線性回歸演算法
一 目標 尋找一條直線,最大程度的 擬合 樣本特徵和樣本輸出標記之間的關係。在回歸問題中我們 的是乙個具體的數值,這個具體的數值是在乙個連續的空間裡的,如果想看兩個特徵的回歸問題就需要在三維空間裡進行觀察。樣本特徵有多個的回歸稱為多元線性回歸 損失函式 對a求偏導數 最後得到的結果 求a b的pyt...
簡單線性回歸
真實值 y theta x varepsilon 值 hat theta x varepsilon 為誤差 項,服從 均值為0 方差為 為誤差項,服從均值為0,方差為 為誤差項,服 從均值為 0,方差 為 sigma 的高斯分布。已知若干樣本,可以得到若干 varepsilon 值,根 據極大似 然...
簡單線性回歸
資料預處理 data student data 1 刪除缺失值 lm data na.omit data 散點圖 plot height,weight,data data,main scatter plot col 1,pch col為顏色,pch為形狀 箱線圖 boxplot height wei...