參考文章
**:此處模型選擇我們只考慮模型引數數量,不涉及模型結構的選擇。
很多引數估計問題均採用似然函式作為目標函式,當訓練資料足夠多時,可以不斷提高模型精度,但是以提高模型複雜度為代價的,同時帶來乙個機器學習中非常普遍的問題——過擬合。所以,模型選擇問題在模型複雜度與模型對資料集描述能力(即似然函式)之間尋求最佳平衡。
人們提出許多資訊準則,通過加入模型複雜度的懲罰項來避免過擬合問題,此處我們介紹一下常用的兩個模型選擇方法——赤池資訊準則(akaike information criterion,aic)和貝葉斯資訊準則(bayesian information criterion,bic)。
aic是衡量統計模型擬合優良性的一種標準,由日本統計學家赤池弘次在2023年提出,它建立在熵的概念上,提供了權衡估計模型複雜度和擬合資料優良性的標準。
通常情況下,aic定義為:
其中k是模型引數個數,l是似然函式。從一組可供選擇的模型中選擇最佳模型時,通常選擇aic最小的模型。
當兩個模型之間存在較大差異時,差異主要體現在似然函式項,當似然函式差異不顯著時,上式第一項,即模型複雜度則起作用,從而引數個數少的模型是較好的選擇。
一般而言,當模型複雜度提高(k增大)時,似然函式l也會增大,從而使aic變小,但是k過大時,似然函式增速減緩,導致aic增大,模型過於複雜容易造成過擬合現象。目標是選取aic最小的模型,aic不僅要提高模型擬合度(極大似然),而且引入了懲罰項,使模型引數盡可能少,有助於降低過擬合的可能性。
bic(bayesian informationcriterion)貝葉斯資訊準則與aic相似,用於模型選擇,2023年由schwarz提出。訓練模型時,增加引數數量,也就是增加模型複雜度,會增大似然函式,但是也會導致過擬合現象,針對該問題,aic和bic均引入了與模型引數個數相關的懲罰項,bic的懲罰項比aic的大,考慮了樣本數量,樣本數量過多時,可有效防止模型精度過高造成的模型複雜度過高。
其中,k為模型引數個數,n為樣本數量,l為似然函式。kln(n)懲罰項在維數過大且訓練樣本資料相對較少的情況下,可以有效避免出現維度災難現象。
模型選擇的幾種方法 AIC,BIC,HQ準則
經常地,對一堆資料進行建模的時候,特別是分類和回歸模型,我們有很多的變數可供使用,選擇不同的變數組合可以得到不同的模型,例如我們有5個變數,2的5次方,我們將有32個變數組合,可以訓練出32個模型。但是哪個模型更加的好呢?目前常用有如下方法 aic 2 ln l 2 k 中文名字 赤池資訊量 aka...
模型評估和選擇
可用模型很多 不同的演算法產生不同的模型,相同的演算法用不同的引數也產生不同的模型。怎麼選?使用訓練誤差最小的那個模型?顯然不行,過擬合問題。模型選擇涉及兩個問題 一是評估方案的實驗設計問題,這方面主要是如何從已有資料中分離出測試資料集,二是評估度量問題,即各種指標,諸如rmse,精度等。理想方案 ...
Socket I O模型之選擇 select
一 客戶端 c include stdafx.h include include pragma comment lib,ws2 32.lib define server address 192.168.10.56 define port 5150 define msgsize 1024 int ma...