特徵選擇是乙個重要的資料預處理過程,去除不相關的屬性,可以減輕維數災難,並且降低學習任務的難度。
特徵選擇過程必須確保不丟失重要特徵。
需要去除的特徵如無關特徵和冗餘特徵(冗餘特徵有時能簡化問題,具體問題具體分析)。
1、子集搜尋
前向搜尋:假定特徵子集最優,再把與剩餘的各個特徵子集組合出評估,如果最優,則保留,再用進行下一輪組合,直至迭代到得不到優化為止。
後向搜尋:從完整的特徵集合開始,每次嘗試去掉乙個無關特徵,類似前向每次增加最優的乙個,而後向是每次去掉最差的乙個。
雙向搜尋:結合前後向搜尋。
上述策略都是貪心的,如果沒有窮舉搜尋,則無法找出全域性最優組合。
2、子集評價
通過資訊增益、不合度量、相關係數等度量對特徵子集進行優劣的評估。
如將前向搜尋和資訊熵組合,與決策樹演算法非常相似。
1、過濾式選擇
先選擇,後訓練。
代表演算法:relief(適用於二分類問題)、relief-f(適用於多分類問題)
2、包裹式選擇
訓練出的學習器效能作為特徵子集的評價標準,效果更佳,但開銷大。
代表演算法:lvw,開銷大,可給定終止條件t。
3、嵌入式選擇
特徵選擇和訓練過程再同乙個優化過程中完成,即:在訓練過程中自動進行特徵選擇
稀疏效能使大多數問題變得線性可分。
要恰當稀疏不要過度稀疏。
字典學習(稀疏編碼):為普通稠密表達的樣本找到合適的字典,將樣本轉化為合適的稀疏表示形式。
字典學習更側重於學得字典的過程,稀疏編碼更側重於對樣本進行稀疏表達的過程。
通過設定詞彙量k的大小來控制字典的規模,從而影響到稀疏程度。
壓縮感知關注的是如何利用訊號本身所具有的稀疏性,從部分觀測樣本中恢復原訊號。
壓縮感知分為兩個階段:
1、感知測量:對原始訊號進行處理以獲得稀疏樣本表示,這方面的內容涉及傅利葉變換、小波變換、字典學習、稀疏編碼等。
2、重構恢復:基於稀疏性從少量觀測中恢復原訊號,壓縮感知的精髓,通常說的壓縮感知就是指的這部分。
《西瓜書》筆記11 特徵選擇方法(一)
從給定的特徵集合中,選擇出相關特徵子集的過程,稱為特徵選擇。為什麼進行特徵選擇?特徵選擇不能丟失重要特徵,否則導致欠擬合。給定資料集,若學習任務不同,則相關特徵不同。因此無關特徵,指的是與當前學習任務無關。冗餘特徵 其包含的資訊可從其他特徵推演而來。如立方體已有特徵長,寬,則底面積是冗餘特徵。一般的...
西瓜書 第二章模型評估與選擇
錯誤率 a 分類錯誤的樣本個數 m 樣本個數 精度 1 錯誤率 誤差 實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 注 我們希望得到泛化誤差小的學習器 過擬合 學習器的學習能力過於強大,把樣本中所包含的不太一般的特性學到了,導致的...
西瓜書 第10章 降維與度量學習
knn在訓練集中通過某種距離度量找到靠近測試樣本的k個訓練樣本,再根據投票法或是平均法輸出 結果 knn是懶惰學習 還有懶惰決策樹 的著名代表,訓練時間為0,即不需要訓練。knn雖然簡單,但泛化錯誤率不超過貝葉斯最優分類器的錯誤率的兩倍。屬性越多,維度越高,很多情況下高維度帶來了維數災難,這將帶來資...