可以認為是多項式回歸的乙個特例吧,最高次冪是1的多項式回歸。可以有多個引數或者叫維度。
所有的課程都很熱衷於用房價來展示,看來國內外都不可避免。
也有用蟲子與溫度關係表示:
這裡,x
x
是屬於r1
' role="presentation" style="position: relative;">r1r
1的向量,只有乙個維度,x1
x
1表示每分鐘的蟲子名叫次數。為了根據蟲子鳴叫的次數**溫度,我們可以通過乙個線性方程表達。 hθ
(x)=
θ0+θ
1x1 hθ(
x)=θ
0+θ1
x1這裡θi
θ
i稱為引數(也稱為權重),推廣到一般形式,當引數有多個的時候,如下面的公式表示: h(
x)=∑
ni=0
θixi
=θtx
h (x
)=∑i
=0nθ
ixi=
θtx這個就轉成矩陣的表達方式。(機器學習中,很多都是轉成了矩陣的方式,這讓我很多時候理解起來比較困難,主要是線性代數扔的太久了,好多特性和符號都忘記了。不過要是想學好機器學習,線性代數非常必要,得重新撿起來。)
既然設計了**的函式,就碰到乙個在現在機器學習裡非常重要的問題,就是如何衡量結果的好壞。這個非常重要,至少在我看來,現在大部分的演算法都是確定了乙個模型之後,把主要的工作和精力都放在計算結果好壞了上,用了各種最優化的方法,做這些事情。不過我還在初學階段,等後面學多了說不定有不同的東西。
線性回歸,教程提出的衡量結果好壞都是用方差來表示,定義了乙個損失函式(cost function): j(
θ)=1
2∑mi
=1(h
θ(xi
)−yi
)2j (θ
)=12
∑i=1
m(hθ
(xi)
−yi)
2從圖中可以看出不同的
θ θ
選擇會出現不同的損失
我們的目標就變成了找到一組合適的
θ θ
,使得函式j(
θ)j (θ
)最小總結下我現在得到的東西:
機器學習,或者說監督學習,通過構造乙個確定的模型(估計就是我們以後學習的不同演算法,線性回歸、決策樹、支援向量機等),明確需要的輸入資料(看起來輸入資料是向量的集合,每條資料是乙個向量,構造了乙個巨大的矩陣),最後明確損失函式。這樣乙個演算法的構造就完成了,後續的工作就是找到一組引數,使得損失函式最小。把現實問題轉換成了乙個最優化問題,不知道我這樣的理解對不對。
如果這樣的話,人參與的內容也會比較多,需要選取足夠的特徵,構造精巧的模型才行,可能這就是現在深度學習流行的原因吧,貌似這些都可以機器自己搞定。
希望能隨著學習的深入更加明確,加油~
線性回歸 監督學習
1 線性回歸的可行行基礎及資料形式 輸入資料都是帶著標稱的資料 其中x時特徵向量,y為結果 2 線性回歸解決的問題 相比與前面的感知機模型輸出空間為乙個二元的分類空間,線性回歸輸出空間是全體實數,以銀行審評信用卡為例 在感知機模型中,輸出結果是 3 線性回歸的hypothesis 相比與感知機模型在...
機器學習 監督學習 (回歸)嶺回歸
1 嶺回歸 標準方程法 import numpy as np from numpy import genfromtxt import matplotlib.pyplot as plt 讀入資料 data genfromtxt r longley.csv delimiter 切分資料 x data d...
機器學習之監督學習 回歸
回歸問題和 分類問題的區別在於 其待 的目標是 連續變數 線性回歸器 如果面對訓練資料十分龐大的任務,隨機梯度法不論是在分類還是在回歸問題上都表現得十分高效,可以在不損失過多效能的前提下,節省大量計算時間 根據scikit learn官網的建議,如果資料規模超過10萬,推薦使用隨機梯度估計引數模型 ...