在監督學習中,由給定的輸入x,通過模型 h(x) 出的的**值 y,與真實值y不可能完全一致,這時,採用乙個損失函式,或者是代價函式來表示這個**錯誤的程度損失函式值越小,模型就越好,由於模型的輸入、輸出(x,y)是隨機變數,遵循聯合分布p(x, y),所以損失函式的期望是:
這個函式稱為期望損失或者是風險損失
學習目標就是選擇期望風險最小的模型,由於聯合分布p(x, y)是未知的,所以期望損失不能直接計算,實際上,如果知道了聯合分布p(x, y), 可以直接從聯合分布直接求出條件概率分布p(y|x)了,也就不需要學習了, 這樣一來,一方面根據期望風險最小學習模型要用到聯合分布,另一方面,聯合分布又是未知的,所以監督學習成為了乙個病態問題(ill-fromed problem)定義:模型f(x) 關於訓練資料集的平均損失函式稱為經驗風險或經驗損失函式。公式:
這個公式也是一般最常見的損失函式的寫法
期望風險是關於聯合分布期望的損失
經驗風險是模型關於訓練樣本集的平均損失
根據大樹定律,當n趨向於無窮大的時候,經驗風險趨向於期望風險,所以當資料無窮多的時候,可以用經驗風險當做期望風險
但是實際上,通常樣本數量不夠多,使用經驗風險估計期望風險往往效果不太好(過擬合),所以需要增加一定的矯正,這就引出了經驗風險最小化和結構風險最小化
我的個人理解,不一定對
期望風險是對未來的誤差大小的判定(我希望得到的),而經驗風險是我根據訓練集資料所得到的誤差(我已經得到的),兩者本身是兩個不同的東西,而我期望用經驗風險去估計期望風險,這樣兩者就產生了關係。經驗風險最小化在假設空間、損失函式以及訓練資料集確定的情況下,經驗風險函式式就可以確定經驗風險最小化。經驗風險最小化的策略認為,經驗風險最小化的模型就是最有模型。根據這乙個策略,就可以得到經驗風險最小化的結構模型:當樣本容量足夠大,就會取得較好的模型效果,在現實中得到了廣泛的英語,不如說:極大似然估計就是經驗風險最小化的乙個例子,當模型是條件概率分布的時候,損失函式式對數損失函式時,經驗風險最小化就等價於極大似然估計。
經驗風險最小化學習的缺陷:結構風險最小化是為了防止過擬合而提出的策略,結構風險最小化等價於正則化,是在經驗風險最小化的基礎上加上正則化項或者懲罰項如果樣本容量小,會產生過擬合問題
定義式:
j(f)可以使用l1 或者l2範數
參考:李航 《統計學習方法》
機器學習筆記 什麼是損失函式?
機器學習模型關於單個樣本的 值與真實值的差稱為損失。損失越小,模型越好,如果 值與真實值相等,就是沒有損失。用於計算損失的函式稱為損失函式。模型每一次 的好壞用損失函式來度量。常用的損失函式有以下幾種 引用自李航的 統計學習方法 0 1損失函式 0 1損失函式 二類分類任務中,值與真實值不同,就是 ...
機器學習(四) 損失函式
在上上一節邏輯回歸中,是使用似然函式來作為模型的求解引數的目標。但在很多情況下,似然函式很難直接寫出,更常用的方法是損失函式,這個在上上一節的補充中也有提過。那麼損失函式表示什麼概念呢?和似然函式相反,損失函式是模型 失敗的度量。注意最大化似然函式和最小化損失函式兩者並不能完全等同,因為這涉及到所選...
機器學習損失函式梳理
沒有乙個適合所有機器學習演算法的損失函式。針對特定問題選擇損失函式涉及到許多因素,比如所選機器學習演算法的型別 是否易於計算導數以及資料集中異常值所佔比例。下文中總結了機器學習中比較重要的損失函式。均方誤差 mse 度量的是 值和實際觀測值間差的平方的均值。它只考慮誤差的平均大小,不考慮其方向。但由...