資料探勘與機器學習 損失函式

2022-09-10 17:48:17 字數 1286 閱讀 7298

損失函式是用來估量模型的**值f(x)與真實值不y一致的程度。我們的目的就是最小化損失函式,讓f(x)與y盡量接近。

通常可以使用梯度下降尋找函式最小值

損失函式大致可以分成兩類:回歸和分類

模型**值與樣本真實值之間距離平方的平均值

mse是比較常用的一種損失函式它的曲線特點是光滑連續,可導,有利於使用梯度下降演算法。而且mse隨著誤差的減小,梯度也在減小,這有利於函式的收斂,不易產生**。

當y與f(x)的差值大於1時,mse會增大其誤差,當y與f(x)的差值小於1時,mse會減少其誤差,這是由平方的特性決定的,也就是說mse會對誤差較大的情況給予更大的懲罰,對誤差較小的情況給予更小的懲罰。

缺點:mae的曲線呈v字型,連續但在y-f(x)=0處不可導,計算機求解導數比較困難。而且mae大部分情況下梯度都是相等的,這意味著即使很小的損失值,其梯度也是太的,在損失較小時容易產生** ,這不利於函式的收斂和模型的學習。

優點:mae 相比mse有個優點就是mae對離群點不那麼敏感,更有包容性,所以魯棒性比較好。因為mae計算的是誤差y-f(x)的絕對值,無論是y-f(x)>1還是y-f(x)<1,沒有平方項的作用,懲罰力度都是一樣的,所佔權重一樣。

mse與mae

·從計算機求解梯度的複雜度來說,mse要優於mae,而且梯度也是動態變化的,能較快準確達到收斂。

·從離群點角度來看,如果離群點是重要資料,或者是應該被檢測到的異常值,即我們需要關注的樣本時,那麼我們應該使用mse。

·若離群點是資料損壞或者錯誤取樣和標註錯誤等情況,無須給予過多關注,那麼我們應該選擇mae作為損失。但這種情況下,也可以通過實際情況,對這些噪音點進行相應的過濾處理後,再結合mse進行訓練,從而達到較好的效果。

mae稜角過於分明,容易在左右兩個界限見跳動(**),而mse弧度緩和,差值越來越小,叫容易停在斷點

回歸-huber損失

·huber loss 是對mse和mae的綜合

·ω值決定了huber loss對mse和mae的側重性,當ly-f(x)1≤ω時,變為mse,梯度逐漸減小,能夠保證模型更精確地得到全域性最優值;當ly-f(x)1>ω時,則變成類似於mae,梯度一直近似為ω,能夠保證模型以乙個較快的速度更新引數。因此huber loss 同時具備了mse和mae的優點,減小了對離群點的敏感度問題,實現了處處可導的功能。

·通常來說,超引數ω可以通過交叉驗證選取最佳值。

·交叉熵loss的優點是在整個實數域內,loss近似線性變化。尤其是當ys<<0的時候,loss更近似線性。這樣,模型受異常點的干擾就較小。

而且,交叉熵loss連續可導,便於求導計算,是使用最廣泛的損失函式之一。

機器學習與資料探勘

機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...

機器學習(四) 損失函式

在上上一節邏輯回歸中,是使用似然函式來作為模型的求解引數的目標。但在很多情況下,似然函式很難直接寫出,更常用的方法是損失函式,這個在上上一節的補充中也有提過。那麼損失函式表示什麼概念呢?和似然函式相反,損失函式是模型 失敗的度量。注意最大化似然函式和最小化損失函式兩者並不能完全等同,因為這涉及到所選...

機器學習損失函式梳理

沒有乙個適合所有機器學習演算法的損失函式。針對特定問題選擇損失函式涉及到許多因素,比如所選機器學習演算法的型別 是否易於計算導數以及資料集中異常值所佔比例。下文中總結了機器學習中比較重要的損失函式。均方誤差 mse 度量的是 值和實際觀測值間差的平方的均值。它只考慮誤差的平均大小,不考慮其方向。但由...