模型選擇的幾種方法 AIC，BIC，HQ準則

經常地，對一堆資料進行建模的時候，特別是分類和回歸模型，我們有很多的變數可供使用，選擇不同的變數組合可以得到不同的模型，例如我們有5個變數，2的5次方，我們將有32個變數組合，可以訓練出32個模型。但是哪個模型更加的好呢？目前常用有如下方法：

aic=-2 ln(l) + 2 k

中文名字：赤池資訊量 akaike information criterion

bic=-2 ln(l) + ln(n)*k 中文名字：貝葉斯資訊量 bayesian information criterion

hq=-2 ln(l) + ln(ln(n))*k hannan-quinn criterion

其中l是在該模型下的最大似然，n是資料數量，k是模型的變數個數。

注意這些規則只是刻畫了用某個模型之後相對「真實模型」的資訊損失【因為不知道真正的模型是什麼樣子，所以訓練得到的所有模型都只是真實模型的乙個近似模型】，所以用這些規則不能說明某個模型的精確度，即三個模型a, b, c，在通過這些規則計算後，我們知道b模型是三個模型中最好的，但是不能保證b這個模型就能夠很好地刻畫資料，因為很有可能這三個模型都是非常糟糕的，b只是爛蘋果中的相對好的蘋果而已。

這些規則理論上是比較漂亮的，但是實際在模型選擇中應用起來還是有些困難的，例如上面我們說了5個變數就有32個變數組合，如果是10個變數呢？2的10次方，我們不可能對所有這些模型進行一一驗證aic, bic，hq規則來選擇模型，工作量太大。

模型選擇的幾種方法 AIC，BIC，HQ準則

sklearn 儲存模型的幾種方法

jq中選擇器的幾種方法

sps程式設計模型中開啟站點的幾種方法

模型選擇的幾種方法 AIC，BIC，HQ準則

sklearn 儲存模型的幾種方法

jq中選擇器的幾種方法

sps程式設計模型中開啟站點的幾種方法

相關推薦