在surpervised question中
(x,y)表示乙個訓練樣本。 x為features(特徵)y為target(目標)
(xi,yi)表示訓練集。上標i just an index into the training set
hypothesis function : hθ(x) =θ0+θ1x.
hypothesis function是關於變數x的函式
概況來講,任何能夠衡量模型**出來的值h(θ)與真實值y之間的差異的函式都可以叫做代價函式c(θ),如果有多個樣本,則可以將所有代價函式的取值求均值,記做j(θ)。
cost fuction是關於parameters的函式
平方誤差代價函式是解決回歸問題最常用的手段,具體定義如下:
找到是訓練集中**值和真實值的差的平方和最小的1/2m的θ0和θ1的值
假設有訓練樣本(x, y),模型為h,引數為θ0,θ1。hθ(xi) =θ0+θ1xi.
優化目標: 求使得j(θ0,θ1)最小的parameters:θ0,θ1。此時求得目標函式
給θ0,θ1賦予某乙個初值進行出發 直到收斂於某乙個區域性最小解
演算法過程:重複下列迭代
其中:=表示的是複製,α表示學習率(控制以多大的幅度更新引數)通俗講,用於表示下降的步伐。
特別注意:θ0,θ1需要同時更新
α太小:需要進行多次梯度下降
α太大:可能越過最小點,導致無法收斂甚至發散
乙個特點:在梯度下降法中,當我們接近區域性最低點時,梯度下降法自動採取更小的幅度(曲線越來越平緩導致導數也越來越小)
線性回歸演算法:
(將梯度演算法與代價函式相結合擬合線性函式)
求導:
線性回歸的代價函式總是像乙個弓狀函式如下所示。叫做凸函式(convex function)
此類函式沒有區域性最優解,只有乙個全域性最優。
」batch「gradient descent
Andrew機器學習課程 章節5 正則化
理論上n個n次項係數可以完全擬合乙個通過n 1個點的曲線,當引數無限時,我們甚至可以將訓練集的代價函式變為0。但此時,會產生過度擬合現象,使其無法generalize 泛化 到新的樣本中。此時,我們就需要正則化。options 1.reduce number of features 2.regula...
Andrew機器學習課程 章節15 降維
作用 1壓縮資料 來減少儲存資料所需要的空間 儲存方差保留的百分比 99 2.視覺化 特徵高度相關 data visualization pca找到乙個面,使點到線段的長度平方和最小。1.先進性均值歸零化。找到乙個向量,使其表示能夠最小化投影誤差的方向。將n維降為k維,故我們要尋找k個向量來對資料進...
機器學習之特徵選擇章節 《機器學習 周志華》
所謂的特徵選擇實際是屬性選擇,在進行機器學習任務時,往往給定的屬性中有個別屬性是十分重要的,這些屬性被稱為 相關特徵 而另外一些屬性對當前學習任務的最後結果沒什麼影響,這些屬性被稱為 無關特徵 特徵選擇就是從給定的所有特徵 屬性 中選擇出 相關特徵 子集。特徵選擇的目的一方面是在遇到維數災難問題時,...