線性回歸演算法梳理

2021-09-11 17:13:18 字數 2056 閱讀 5559

線性回歸演算法梳理

2. 線性回歸的原理

3. 線性回歸損失函式、代價函式、目標函式的概念

4. 一元線性回歸的引數求解公式推導

5. 多元線性回歸的引數求解公式推導

6. 線性回歸的評估指標

7. 參考資料

文中肯定有許多描述不恰當、理解不到位的地方,希望大神們拍正。另外文中一些段落是在引用了一些其它博文的話的基礎上的理解,如有侵犯,請指正

有監督又被稱為「有老師的學習」,所謂的老師就是標籤。有監督的過程為先通過已知的訓練樣本(已知輸入和對應的輸出)來訓練,從而得到乙個最優模型,再將這個模型應用在新的資料上,對映為輸出結果。經歷這個過程後,模型具有了預知能力。

無監督被稱為「沒有老師的學習」,無監督相比於有監督,沒有訓練的過程,而是直接拿資料進行建模分析,也就是沒有老師告訴你對錯,全靠自己探索。這聽起來似乎有點不可思議,但是在我們自身認識世界的過程中也會用到無監督學習。

過擬合模型表現為在訓練集上具有高方差和低偏差。

欠擬合模型表現為在訓練集上具有低方差和高偏差。

過擬合會造成模型變得複雜,並盡可能擬合訓練集,造成在訓練集上的準確率特別高;欠擬合比較好理解就是模型簡單或者說語料集偏少、特徵太多,在訓練集上的準確率不高,同時在測試集上的準確率也不高,這樣如何訓練都無法訓練出有意義的引數,模型也得不到較好的效果

線性回歸(linear regression)是一種通過屬性的線性組合來進行**的線性模型,其目的是找到一條直線或者乙個平面或者更高維的超平面,使得**值與真實值之間的誤差最小化。

優點:結果具有很好的可解釋性(w直觀表達了各屬性在**中的重要性),計算熵不複雜。

缺點:對非線性資料擬合不好

適用資料型別:數值型和標稱型資料

線性回歸假設特徵和結果滿足線性關係。其實線性關係的表達能力非常強大,每個特徵對結果的影響強弱可以由前面的引數體現,而且每個特徵變數可以首先對映到乙個函式,然後再參與線性計算。這樣就可以表達特徵與結果之間的非線性關係。

我們用x1,x2…xn 去描述feature裡面的分量,比如x1=房間的面積,x2=房間的朝向,等等,我們可以做出乙個估計函式:

θ在這兒稱為引數,在這的意思是調整feature中每個分量的影響力,就是到底是房屋的面積更重要還是房屋的地段更重要。為了如果我們令x0 = 1,就可以用向量的方式來表示了:

我們程式也需要乙個機制去評估我們θ是否比較好,所以說需要對我們做出的h函式進行評估,一般這個函式稱為損失函式(loss function)或者錯誤函式(error function),描述h函式不好的程度,在下面,我們稱這個函式為j函式

在這兒我們可以認為錯誤函式如下:

這個錯誤估計函式是去對x(i)的估計值與真實值y(i)差的平方和作為錯誤估計函式,前面乘上的1/2是為了在求導的時候,這個係數就不見了。

衡量線性回歸法的指標:mse, rmse和mae

衡量線性回歸法最好的指標 r squared

線性回歸演算法梳理

機器學習的一些概念 有監督 有目標值y 無監督 無目標值y 泛化能力 在 集上的 能力 過擬合欠擬合 方差和偏差以及各自解決辦法 測試集 能力不好叫欠擬合,在測試集上ok,訓練集ng 方差能解決過你和問題,偏差能解決欠擬合問題 交叉驗證 將樣本分為n分,按照一定的劃分方式劃分訓練集和測試集,互相交叉...

線性回歸演算法梳理

有監督 資料做過標記 無監督 對原始資料進行處理,未做標記 泛化能力 由訓練資料建立的模型對同類問題的解決能力 過擬合 模型過於複雜導致解決問題能力差 欠擬合 模型過於簡單導致擬合資料的能力差 方差和偏差以及各自解決辦法 交叉驗證 當資料比較少時,將資料分成n份,取n 1份做訓練集,1份做驗證集,改...

線性回歸演算法梳理

監督學習 資料集中的每個樣本有相應的標籤,根據這些樣本做出 無監督學習 資料集中沒有標籤。無監督學習的任務是從給定的資料集中,找出可能具有的結構。泛化能力 指乙個機器學習演算法對於沒有見過的樣本的識別能力。過擬合欠擬合 方差和偏差以及各自解決辦法 欠擬合 模型沒有很好地捕捉到資料特徵,不能夠很好地擬...