機器學習任務幾乎沒有例外的都使用了損失函式cost function這一概念。常見的損失函式有平方誤差損失函式,交叉熵損失函式等,在分類任務中一般使用交叉熵損失函式,回歸問題中一般使用平方誤差損失函式。
損失函式的核心思想是建立一種**結果和真實結果之間誤差的衡量標準,而機器學習的優化目標就是讓這個衡量項越小越好,這種差別也叫做風險,風險分為經驗風險和結構風險兩種,經驗風險是樣本集合的**值和真實值的差的平方的期望,這個期望也叫期望風險,但是由於期望風險難以求解,常常以經驗風險來代替,但是經驗風險存在一定問題,說明在下面,所以才提出了結構風險,結構風險到提出者也是svm的提出者,所以對於svm的優化問題是圍繞著模型的結構風險最小化進行的,結構風險包含了經驗風險和正則化項兩項,並要求它們同時達到最小化。
上文提到經驗風險最小化存在問題是什麼問題呢?這個問題就是當在訓練集上得到很好的效果的時候,在測試集上往往得到很差的效果。這是因為模型在訓練集上產生了過擬合,直觀理解是最小二乘法(最小二乘也是機器學習包括深度學習的思想的乙個很重要的**),當存在一系列雜亂無章的資料的時候,我們先去拿直線來擬合它,結果發現效果很差,然後使用二次曲線,發現結果要好一點,於是我們認為加大曲線的階次可以提公升模型的擬合效果,我們可能終於找到了乙個很高階的曲線擬合訓練資料得到了乙個很好的效果,但是這個曲線用到測試資料上也很好嗎?答案往往是否定的。這個時候採用的辦法就是正則化的辦法,正則化分為l0,l1,l2三種分別表示非零項的個數,各項絕對值之和,各項平方和,(雖然在幾何上三種正則化都有自身的解釋,但是在我看來,它們無一例外的都是用來提高特徵向量的稀疏性,從而避免過擬合的)。其中l2範數最難理解但是也最好解釋,直觀上,一條高次曲線,減小高次項係數與低次項係數的比值可以使得這條高次曲線更加的緩和,緩和自然也就降低了過擬合。所以,在經驗風險的後面加上乙個正則化項或者叫稀疏項就可以得到既準確擬合又不至於過擬合的模型。拿這個模型用在測試資料上也會得到差不多的效能。
機器學習 經驗風險 期望風險 結構風險
要區分這三個概念,需要先講一下損失函式l y,f x 的概念。損失函式 針對單個具體樣本,表示模型 值與真實樣本值之間的差距。損失函式越小,說明模型對於該樣本 越準確。常見損失函式有0 1損失函式 平方損失函式 絕對損失函式 對數損失函式 對數似然損失函式 經驗風險 對所有訓練樣本都求一次損失函式,...
機器學習中的經驗風險,期望風險和結構風險最小化
機器學習任務幾乎沒有例外的都使用了損失函式cost function這一概念。常見的損失函式有平方誤差損失函式,交叉熵損失函式等,在分類任務中一般使用交叉熵損失函式,回歸問題中一般使用平方誤差損失函式。損失函式的核心思想是建立一種 結果和真實結果之間誤差的衡量標準,而機器學習的優化目標就是讓這個衡量...
經驗風險 期望風險 結構風險
要區分這三個概念,需要先講一下損失函式l y,f x 的概念。損失函式 針對單個具體樣本,表示模型 值與真實樣本值之間的差距。損失函式越小,說明模型對於該樣本 越準確。常見損失函式有0 1損失函式 平方損失函式 絕對損失函式 對數損失函式 對數似然損失函式 經驗風險 對所有訓練樣本都求一次損失函式,...