在機器學習應用中,我們有兩種型別的引數:
乙個是從訓練集中學得的引數,例如邏輯回歸的權重;
另乙個是為了使學習演算法達到最優化可調節的引數,例如邏輯回歸中的正則化引數或決策樹中的深度引數。這種可調節的引數稱為超引數(hyperparameters)。
我們可以用驗證曲線調節超引數中的乙個引數來優化模型。現在,我們要用網格搜尋這個更加強大的超引數優化工具來找到超引數值的最優組合從而進一步改善模型的效能。
網格搜尋的思路其實很簡單,就是列舉出所有你想要調節的引數,然後窮舉出所有引數組合,最後得出乙個使模型效能最好的引數組合。
以下部落格講解了幾種常用的機器學習引數調優方法,包括:
更多相關總結,見後續。
機器學習 評價指標整理
目錄 1.準確率 accuracy 2.召回率 recall 3.精確率 precision 4.召回率與精確率的關係 5.誤報率 fpr 與漏報率 fnr 準確率是指我們的模型 正確的結果所佔的比例。正式點說,準確率的定義如下 accuracy frac 對於二元分類,也可以根據正類別和負類別按如...
Spark機器學習 模型選擇與引數調優之交叉驗證
機器學習可以簡單的歸納為 通過資料訓練y f x 的過程,因此定義完訓練模型之後,就需要考慮如何選擇最終我們認為最優的模型。如何選擇最優的模型,就是本篇的主要內容 在 統計學習方法 這本書中,曾經講過模型驗證的方法有三種,分別是簡單的交叉驗證,s折交叉驗證,留一交叉驗證 即把全部資料按照比例分割成兩...
機器學習演算法的評價指標
機器學習的目標是使得我們模型的泛化能力足夠強,因此我們需要有衡量模型泛化能力的評價標準。對不同種類的機器學習問題,評價標準不一樣。回歸問題常用均方誤差 mse 絕對誤差 mae 等評價指標,分類問題評價指標則較多,如下圖所示。本文主要講解分類問題的評價指標。首先解釋幾個二分類問題中常用的概念 tru...