赤池資訊準則AIC,BIC

2021-07-28 04:11:59 字數 1459 閱讀 5250

很多引數估計問題均採用似然函式作為目標函式,當訓練資料足夠多時,可以不斷提高模型精度,但是以提高模型複雜度為代價的,同時帶來乙個機器學習中非常普遍的問題——過擬合。所以,模型選擇問題在模型複雜度與模型對資料集描述能力(即似然函式)之間尋求最佳平衡。

人們提出許多資訊準則,通過加入模型複雜度的懲罰項來避免過擬合問題,此處我們介紹一下常用的兩個模型選擇方法——赤池資訊準則(akaike information criterion,aic)和貝葉斯資訊準則(bayesian information criterion,bic)。

aic是衡量統計模型擬合優良性的一種標準,由日本統計學家赤池弘次在2023年提出,它建立在熵的概念上,提供了權衡估計模型複雜度和擬合資料優良性的標準。

通常情況下,它是擬合精度和引數未知個數的加權函式,aic定義為:

當在兩個模型之間存在著相當大的差異時,這個差異出現於上式第二項,而當第二項不出現顯著性差異時,第一項起作用,從而引數個數少的模型是好的模型。

讓n為觀察數,rss為剩餘平方和,那麼aic變為:

aic=2k+nin(rss/n)

其中k是模型中未知引數個數,l是模型中極大似然函式值似然函式。從一組可供選擇的模型中選擇最佳模型時,通常選擇aic最小的模型。

當兩個模型之間存在較大差異時,差異主要體現在似然函式項,

當似然函式差異不顯著時,上式第一項,即模型複雜度則起作用,從而引數個數少的模型是較好的選擇。

一般而言,當模型複雜度提高(k增大)時,似然函式l也會增大,從而使aic變小,但是k過大時,似然函式增速減緩,導致aic增大,模型過於複雜容易造成過擬合現象。目標是選取aic最小的模型,aic不僅要提高模型擬合度(極大似然),而且引入了懲罰項,使模型引數盡可能少,有助於降低過擬合的可能性。可見aic準則有效且合理地控制了引數的維數k。顯然aic準則追求似然函式盡可能大的同時,k要盡可能的小。

舉例:設y1,y2,....,yn是來自未知總體g(y)的樣本。總體的概率密度為f(y;θ),θ是r*1未知引數向量。若θ的極大似然估計是θ*,則l(θ*)=∑_(i=1)^n▒〖inf(y_i;θ*)〗就是對數似然函式,由此,

aic=-2l(θ*)+2r

可以度量f(y;θ)與g(y)之間的差異。

bic(bayesian informationcriterion)貝葉斯資訊準則與aic相似,用於模型選擇,2023年由schwarz提出。訓練模型時,增加引數數量,也就是增加模型複雜度,會增大似然函式,但是也會導致過擬合現象,針對該問題,aic和bic均引入了與模型引數個數相關的懲罰項,bic的懲罰項比aic的大,考慮了樣本數量,樣本數量過多時,可有效防止模型精度過高造成的模型複雜度過高。

其中,k為模型引數個數,n為樣本數量,l為似然函式。kln(n)懲罰項在維數過大且訓練樣本資料相對較少的情況下,可以有效避免出現維度災難現象。

為了使用過度離散(或缺乏擬合),提出了改進的aic準則qaic:

qaic=-2in(l)/c+2k

c是方差膨脹因子

赤池資訊準則AIC,BIC

很多引數估計問題均採用似然函式作為目標函式,當訓練資料足夠多時,可以不斷提高模型精度,但是以提高模型複雜度為代價的,同時帶來乙個機器學習中非常普遍的問題 過擬合。所以,模型選擇問題在模型複雜度與模型對資料集描述能力 即似然函式 之間尋求最佳平衡。人們提出許多資訊準則,通過加入模型複雜度的懲罰項來避免...

互資訊特徵評價準則

本文引自西北工業大學楊巨集暉老師的 模式識別之特徵選擇 對乙個特徵而言,系統有它和沒有它時資訊量將發生變化,而前後資訊量的差值就是這個特徵給系統帶來的資訊量,即增益。衡量標準是看特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,該特徵越重要。識別系統中,特徵的資訊增益就是乙個特徵與類別的互資訊 資訊增...

資訊保安 七 可信計算機系統評估準則

1983 年,美國國防部公布了 可信計算機系統評估準則 tcsec trusted puter systemevaluation criteria 將計算機系統的安全可信度從低到高分為d c b a四類共七個級別 d級,c1級,c2級,b1級,b2級,b3級,a1級。最小保護 d級 該級的計算機系統...