1、模型泛化能力:通過交叉驗證估計泛化效能。
2、學習率是最重要的超引數。
3、超引數調優。主要方法有網格搜尋和隨機搜尋。
網格搜尋會帶來維度災難;隨機搜尋應用隨機取樣。
1、整合學習框架中的基模型是弱模型,通常來說弱模型是偏差高(在訓練集上準確度低),
方差小(防止過擬合能力強)的模型。但是,並不是所有整合學習框架中的基模型都是弱模型。
bagging和stacking中的基模型為強模型(偏差低方差高),boosting中的基模型為弱模型。
boosting演算法就是基於弱模型來實現防止過擬合現象。
1、ks值計算
使用auc統計ks值,不能出現缺失。
crosstab計算ks值,忽略了nan。
但最佳還是使用auc,對於缺失值,不能忽略。根據字段含義,手工填充。
泛統計理論初探 模型泛化能力增強技巧
機器學習模型泛化能力增強技巧簡介 在之前的文章中,我們已經介紹了三種提高模型泛化能力的方法,即前一篇文章介紹的l1正則化 l2正則化 dropout方法。在本文中,我們將會從資料角度 模型訓練角度 策略角度進行提高模型泛化能力的方法介紹,嘗試在處理問題的不同階段使用技巧提公升模型的泛化能力。本文主要...
經典回顧 模型測試集評價指標(模型泛化能力)
靈敏度 sensitivity 特異度 specificity 1 特異度 roc曲線 auc area under curve 為真 為假 標籤為真 tpfn 標籤為假 fptn a cc urac y tp tnt p fp fn tnaccuracy frac accura cy t p fp...
Tensorflow 泛化能力(8)
泛化能力是指學習到的模型對未知資料的 能力 我們通常通過測試誤差來評價學習方法的泛化能力。所謂過擬合 over fitting 其實就是所建的機器學習模型或者是深度學習模型在訓練樣本中表現得過於優越,導致在驗證資料集以及測試資料集中表現不佳。打個比喻就是當我需要建立好乙個模型之後,比如是識別乙隻狗狗...