模型選擇與特徵選擇

2021-06-28 11:28:55 字數 475 閱讀 4121

模型選擇:

對備選的m個模型(a1,a2,a3,......am),分別計算每個模型的誤差(可以用所有樣本訓練誤差或者k重交叉檢驗(k一般取10,k越大對資料的利用率越高)

得到的誤差,總之用一種手段評判模型的好壞),然後選擇其中最好的乙個。

特徵選擇:

(1)前向搜尋(設定初始特徵集為空,然後逐步新增特徵,如選擇加入後能使模型誤差最小的特徵),後向搜尋(初始特徵集為全部特徵,然後逐步刪除特徵,

如選擇刪除後模型誤差最小的特徵),逐步選擇(前向搜尋和後向搜尋的結合,動態地加入和刪除特徵)。

協方差,kl距離。(b)每個特徵的方差大小,或做主成分分析。

特徵選擇的(1)方法是一模擬較」好「的特徵選擇方法,但缺點是計算量太大。(2)方法效果一般不如(1)好,但計算量小。

可以看出,pca只是分析自變數之間的相關性,沒有考慮因變數。pca得到的每個特徵都是多個特徵的線性組合,而前向搜尋等演算法得到的特徵是原始特徵的子集。

機器學習筆記 9 模型選擇與特徵選擇

在前面我們看到了選擇模型時,需要對模型的偏差和方差進行權衡,現在假設我們選用的模型集合為m m m 如果我們僅僅是對每一類模型m im i mi 進行訓練,得到一些假設h ih i hi 最後在各個h ih i hi 中挑選出具有最小經驗誤差的h h h 作為結果,那麼顯然我們會傾向於那些比較複雜的...

特徵選擇與特徵組合

特徵選擇 特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 ...

特徵選擇 單變數特徵選擇

1.selectkbest可以依據相關性對特徵進行選擇,保留k個評分最高的特徵。方差分析 分類問題使用f classif,回歸問題使用f regression。f classif 分類任務 跟目標的分類,將樣本劃分成n個子集,s1,s2,sn,我們希望每個子集的均值 1,2,n不相等。我們假設h0 ...