《西瓜書》筆記11 特徵選擇方法(一)

2021-08-06 04:55:42 字數 952 閱讀 9709

從給定的特徵集合中,選擇出相關特徵子集的過程,稱為特徵選擇。

為什麼進行特徵選擇?

特徵選擇不能丟失重要特徵,否則導致欠擬合。給定資料集,若學習任務不同,則相關特徵不同。因此無關特徵,指的是與當前學習任務無關。

冗餘特徵:其包含的資訊可從其他特徵推演而來。如立方體已有特徵長,寬,則底面積是冗餘特徵。一般的冗餘特徵不起作用,去除可減輕學習負擔。但有時冗餘特徵會降低學習難度,當其恰好對應了完成學習任務所需的中間概念時,此時是有益的。

從原始集合中選取乙個包含了所有重要資訊的特徵子集。若沒有任何先驗知識,只能遍歷所有可能子集。計算上不可行。

第乙個環節:子集搜尋。給定特徵集合,將每個特徵看作乙個候選子集,對d個候選單特徵子集評價,選擇最優的乙個,作為第一輪的集。然後在上一輪的選定集中加入乙個特徵,構成包含兩個特徵的候選子集;迭代到某輪時加乙個不如不加,則停止。逐漸增加相關特徵的策略為前向搜尋。

類似地,還可以從完整的特徵集合開始,每次去掉乙個無關特徵,稱為後向搜尋。

上述策略是貪心策略,考慮本輪最優,區域性最優解。計算上可行。不窮舉則不能全域性最優。

第二個環節:子集評價。給定資料集d,計算屬性子集a的資訊增益即可。資訊增益越大,意味著特徵子集a包含的有助於分類的資訊越多。

特徵選擇方法 = 特徵子集搜尋 + 子集評價機制

決策樹演算法:前向搜尋 + 資訊熵

實際上,決策樹可用於特徵選擇,樹節點的劃分屬性所組成的集合,就是選擇出的特徵子集。其他的特徵選擇方法未必像決策樹這樣明顯,但本質上都是顯示或隱式地結合了子集搜尋機制和子集評價機制。

常見的特徵選擇方法:

具體討論見下節。

西瓜書 第11章 特徵選擇與稀疏學習

特徵選擇是乙個重要的資料預處理過程,去除不相關的屬性,可以減輕維數災難,並且降低學習任務的難度。特徵選擇過程必須確保不丟失重要特徵。需要去除的特徵如無關特徵和冗餘特徵 冗餘特徵有時能簡化問題,具體問題具體分析 1 子集搜尋 前向搜尋 假定特徵子集最優,再把與剩餘的各個特徵子集組合出評估,如果最優,則...

西瓜書筆記 模型評估與選擇

錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛化誤差 學習器訓練之後,在新樣本上的誤差 過擬合 學習器把訓練樣本學習的 過好 導致泛化能力下降。欠擬合 學習器尚未學好訓練樣本的一般性質。以下四種方法可以有效地從乙個資料集中分出訓練集 s 和...

西瓜書筆記 貝葉斯分類器 一

貝葉斯判定準則 對每個樣本x,選擇能使後驗概率p c x 最大的類別標記 然而,在現實任務中這通常難以直接獲得,所以機器學習所要實現的是基於有限訓練樣本集盡可能準確地估計出後驗概率p c x 策略通常有如下兩種 給定x,可通過直接建模p c x 來 c,這樣得到的是判別式模型。如決策樹 bp神經網路...