機器學習流程 ML之一

2021-08-09 15:15:52 字數 993 閱讀 9123

機器學習處理的流程大概如下:

那麼,在模型選擇及結果校驗過程中,有如下幾個標準:

過擬合就是模型訓練的太好了,在訓練集上能夠非常好的完成目的,但是在測試集上,效果卻很差,通常過擬合是模型引數選擇過多導致,而欠擬合就是模型在測試機和訓練集上表現都不好。

欠擬合好處理,而過擬合不好處理,過擬合通過增加引數數量、提高特徵的使用,可以逐步提高擬合程度,而過擬合的處理相對不容易,要降低參數量來處理,比如重新清洗資料、增大訓練資料量、dropout、正則化處理。

正則化是處理過擬合比較常用的方法,比如l0正則、l1正則、l2正則,在機器學習深度學習中都有使用。l0正則是希望引數都是0,讓引數是洗漱的,而l1正則則是引數的絕對值之和是0,l2正則是引數的平方相加為0,l0和l1(lasso)目的都是讓引數是稀疏的,那麼為什麼要引數是稀疏的呢?第一是方便特徵選擇,第二是結果可以更好的解釋,具體見文章

l2正則又叫嶺回歸,也是使用非常多的一種正則化方法,他的目的是讓引數小,而不是接近於0,越小的引數越簡單,而越簡單就越越不容易出現過擬合,把特徵的權重降低,相當於減少單個特徵對整個模型的影響。

引數選擇包括兩種引數,乙個是模型自身引數,比如邏輯回歸的引數,svm的引數等,另一種是超引數,比如kmeans的k的選擇,這些引數通常需要手動設定。

交叉驗證則是在模型構建過程中,將資料集分為測試集合驗證集,測試集用於測試,驗證集驗證模型效果。網格搜尋是另一種,網格搜尋則是構建網格進行搜尋最好的模型引數。

去除方差最小的特徵,variancethreshold,極端情況,如果在所有樣本在某個維度上的特徵全都相同,說明該特徵描述或者代表樣本能力很弱。

基於單變數統計特徵選擇,根據單變數統計測試選取特徵,selectkbest

基於模型的特徵選擇,比如隨機森林。

曲線下面積auc

二分類模型的評價指標,曲線:接受者操作特徵曲線roc曲線,auc的值就是roc曲線下的面積

tp、fp、tn、fn

對數損失

模型輸出可以用logloss來評價**結果。

機器學習之一

一 機器學習是什麼 機器學習不是基於程式設計形成的邏輯推理,而是通過歸納思想得出的相關性結論,與人類通過經驗思考歸納一致。有句話說得很好,歷史往往不一樣,但歷史總是驚人的相似 我們通過對歷史的學習,從歷史中歸納出人生與社會的規律,從而指導我們的下一步工作,這是具有莫大價值的。當代一些人忽視了歷史的本...

機器學習ML策略

機器學習ml策略 1 為什麼是ml策略 例如 識別cat分類器的識別率是90 怎麼進一步提高識別率呢?想法 1 收集更多資料 2 收集更多的多樣性訓練樣本 3 使用梯度下降訓練更長時間 4 嘗試adam代替梯度下降 5 嘗試更大的網路 6 嘗試更小的網路 7 嘗試dropout 8 嘗試l2正則化 ...

ML 機器學習基礎

目錄 偏差與方差 導致偏差和方差的原因 深度學習中的偏差與方差 生成模型與判別模型 兩者之間的聯絡 優缺點常見模型 先驗概率與後驗概率 在監督學習中,模型的泛化誤差可分解為偏差 方差與雜訊之和 偏差用於描述模型的擬合能力 方差用於描述模型的穩定性 方差通常是由於模型的複雜度相對於訓練集過高導致的 監...