什麼是模型,我們可能對模型有些認知,但是又似乎不能一下子說上來,模型就可以簡單的理解為是乙個函式,監督學習中資料分為訓練集和測試集,訓練集相當於歷史的真實資料,測試集相當於需要**的資料。而模型就是根據訓練集得出的乙個函式表示式,將這個模型帶入測試集中就可以**資料了。
上圖就是乙個機器學習的過程首先會將訓練集(training set)帶入到機器學習演算法(learning algorithm)中去,得到乙個估計函式(h)也就是我們所說的模型,然後將測試集(x)的資料帶入到這個模型中去,根據這個模型再得出新的估計值(predicted y)。
代價函式簡單的說就是由**值與真實值之間的差距構成的函式叫代價函式,也稱作損失函式。
我們可以用代價函式來衡量假設函式的準確性。它取所有假設結果的平均值(實際上是乙個更漂亮的平均值)加上x的輸入和y的實際輸出,表示式如下:
舉個例子:根據之前的講述我們知道在機器學習過程中根據訓練集會生成乙個模型供測試集使用,這個模型也被稱做假設函式hθ(x),而我們評估這個模型的好壞就需要乙個代價函式j(θ1),現在假設有這樣乙個訓練集資料(二維座標):
這裡我們將使用最簡單的假設函式(模型)形式hθ(x) =θ * x(當然你也可以用二元函式,n元n次函式,我只是為了讓大家更簡單明瞭的了解代價函式這個概念,在實際中的模型是非常複雜的。)假設模型只能在上面這個函式形式中選擇。這時我們只需要確定θ乙個變數的值,就可以確定這個模型。假設我們將θ的值定為1,也就是說假設函式(模型)表示式為 y=x,這個表示式十分的簡潔明瞭,此時我們畫出假設函式(模型)和代價函式的圖,如下圖所示:
hθ(x)是假設函式(模型),由上圖可以得出我們的訓練集中的所有元素(只有3個元素)完美的落在假設函式hθ(x)上,這應該是乙個比較好的模型,此時我們的代價函式j(θ1)的座標軸的橫軸θ1 = 1 的位置上的縱座標值為0。此時有人會問,這個點的值為啥是0,這是如何得到的呢?還記得我們上面代價函式的公式嗎?沒錯就是這個
圖一
圖二圖一看不懂,沒有關係,看圖二,圖二是我們高中學過的方差公式,圖二中第乙個式子是定義式,是不是和圖一超級像。如果圖二第乙個式子也看不懂的話我們可以看看它的展開式,圖一和圖二是類似的。
好了,我們現在知道了代價函式,該說說上面的座標軸資料是怎樣出來的,首先看假設函式,hθ(x)上用綠圈圈起來的×號就是我們的訓練資料集,而那條直線就是我們的假設函式y=x(θ = 1時),此時將假設函式帶入到代價函式中的hθ(xi)變數中,將訓練集的y軸座標集帶入到yi中。計算後將得到乙個數,這個數就是代價函式θ1 = 1 時,y軸的座標。(1,0)。
我們將假設函式 hθ(x) =θ * x 中的θ改為0.5。將得到代價函式上另外乙個點。如下圖所示
得出的結果大約等於0.58。我們將這個點新增到代價函式圖中(藍點),以此類推,我們將會得到乙個函式圖(如下圖所示),這就是乙個代價函式。當θ1 = 1的時候,它的擬合度最高,模型也就最好的。
在機器學習中,我們希望的是模型能在新樣本上表現的更好一點,為了達到這個目的,應該從訓練樣本中盡可能學出適用於所有潛在樣本的「普遍規律」,這樣才能在遇到新樣本時做出正確的判斷,然而當學習器把訓練樣本學的"太好"了的時候,很可能已經把訓練樣本自身的一些特點當成了潛在樣本都會具有的一般性質,這樣就會導致泛化(一般化)效能下降。這種現象在機器學習中稱為「過擬合」。與過擬合相對的是「欠擬合」,這是指對訓練樣本的一般性質尚未學好。區別如下圖所示:
參考:吳恩達老師機器學習課程
參考:《機器學習》周志華
模型表示及代價函式
訓練集的描述 如 m代表訓練集中例項的數量 x代表特徵 輸入變數 y輸出變數 x,y 代表訓練集中的例項 xi,yi 代表第i個觀察例項 h代表學習演算法的解決方案或函式也稱為假設 hypothesis 外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳 img jm7biptq 16051...
代價函式和損失函式
代價函式就是用於找到最優解的目的函式,這也是代價函式的作用。損失函式 loss function 是定義在單個樣本上的,算的是乙個樣本的誤差。代價函式 cost function 是定義在整個訓練集上的,是所有樣本誤差的平均,也就是損失函式的平均。目標函式 object function 定義為 最...
代價函式 cost function
在監督學習的回歸問題中,代價函式就是用於找到最優解的目的函式,反應了 函式的準確性。代價函式的值越小,說明在回歸問題的中,電腦程式對資料擬合的越好。也就是假設函式越正確。比如,對於這個假設函式 可以看成是求房價的假設函式 代價函式是 也就是 值與真實值的差的平方和,再除以2m 2倍樣本數量 在假設函...