現在我們知道的回歸一詞最早是由達爾文的表兄弟francis galton發明的。galton在根據上一年的豌豆種子的尺寸**下一代豌豆種子的尺寸時首次使用了回歸**。他在大量的物件上應用了回歸分析,包括人的身高。他注意到,如果雙親的高度比平均高度高的話,則他們的子女也傾向於比平均身高高,但尚不及雙親。孩子的身高向著平均高度回退(回歸)。galton在多項研究上都注意到這個現象,所以儘管這個單詞跟數值**沒有任何關係,但是仍然把這種方法稱為回歸。
1) 收集的資料是數值型資料,或可轉為數值型資料
2) 建立數學模型,即乙個函式,這個函式裡含有未知的引數,通過對收集到的資料進行學習,可以估計出引數。然後利用這個模型去**/分類新的數值型資料。
3)在對數值型資料的處理後,具體的適用條件見後面具體的回歸演算法
線性回歸假設特徵和結果滿足線性關係,
其實線性關係的表達能力非常強大,每個特徵對結果的影響強弱可以有前面的引數體現,而且每個特徵變數可以首先對映到乙個函式,然後再參與線性計算。這樣就可以表達特徵與結果之間的非線性關係。
收集的資料中,每乙個分量,就可以看做乙個特徵資料。每個特徵至少對應乙個未知的引數。這樣就形成了乙個線性模型函式,我們可以用
θ 在這兒稱為引數,在這的意思是調整 feature 中每個分量的影響力,就是到底是房屋的面積更重要還是房屋的地段更重要。為了如果我們令 x0 = 1,就可以用向量的方式來表示了:
我們程式也需要乙個機制去評估我們 θ 是否比較好,所以說需要對我們做出的 h 函式進行評估,一般這個函式稱為損失函式(loss function)或者錯誤函式(error function),描述 h 函式不好的程度,在下面,我們稱這個函式為 j 函式
這個錯誤估計函式是去對 x(i)的估計值與真實值 y(i)差的平方和作為錯誤估計函式,前面乘上的 1/2 是為了在求導的時候,這個係數就不見了。這個損失函式是關於theta的乙個凸函式,它的極值點就是我們要求的最小值,這裡其實為梯度下降法埋下了乙個伏筆。
至於為何選擇平方和作為錯誤估計函式,後面從概率分布的角度講解了該公式的**。
如何調整 θ 以使得 j(θ)取得最小值有很多方法,其中有最小二乘法(min square),是一種完全
是數學描述的方法, 和梯度下降法。
機器學習(1) 線性回歸
無正則的線性回歸模型 l1正則的lasso模型 l2正則的ridge regression 嶺回歸 模型 開方均方誤差 rooted mean squared error,rmse 平均絕對誤差 mean absolute error,mae 1.生成學習器例項 lr linearregressio...
機器學習 1 線性回歸
2 linear regression with multiple variables multivariate linear regression 多變數線性回歸 3 gradient descent in practice 3.2 learning rate 3.3 features and p...
機器學習之1 線性回歸
在最近一段時間,對機器學習進行了學習,但感覺效果不是很好。一日與朋友聊起此事,他建議建個部落格,一來梳理一下所學內容,二來和大家一起學習交流。因此,建立了此部落格,如果您發現博文中有不當之處,歡迎您來郵指明,我的郵箱為212352807 qq.com 在機器學習中,基本分為兩大問題 監督學習 sup...