華電北風吹
天津大學認知計算與應用重點實驗室
日期:2015/11/20
在統計分析中,由於事先並不知道什麼特徵與這個模式相關,而特徵對能否正確分類又起到至關重要的作用,因此特徵選擇是統計學習中必不可少的一步。目前常用的特徵選擇方案總的來說可以分為基於統計的和基於模型的。基於統計的比如f值,資訊增益等,可以對各個特徵直接進行選擇,不需要建模看模型好壞。基於模型的需要根據模型準確率等因素來逐步選擇或者刪除特徵。
一、f值(方差分析)
適用範圍:特徵取值連續,有監督,分類和回歸
f值能夠作為特徵選擇的思路是:對於單個特徵來說假設這個特徵與類別標籤是無關的,因此這個特徵在各個類別下均值應該是相同的。在統計學上可以根據樣本個數和樣本類別個數構建f統計量,由對應的p值來決定是否拒絕這個假設。
在使用f值做特徵選擇的時候有兩種特徵選擇方案:一是設定顯著性水平p值,將特徵對應p值小於設定的閥值p的特徵作為有效特徵;另一種是設定需要選擇的特徵個數n,根據f值排序選擇f值最大的n個特徵作為有效特徵。
二、資訊增益和基尼係數
使用範圍:特徵取值離散,有監督,分類和回歸
熵表示了資料分布的不均衡程度。熵作為特徵選擇的思路是:對於單個特徵,如果特徵的不同取值裡面,類別標籤的純度比較高的話,如果根據經驗**以後的話,這樣**比較可靠。
三、相關係數
使用範圍:有監督,分類和回歸
根據各個特徵與導師訊號的相關係數確定要選擇的特徵。相關係數大的特徵應該更有助於識別這個模式。還有一種就是對現有的特徵進行建模,根據殘差與導師訊號的相關係數進行特徵選擇。
四、距離
使用範圍:有監督,分類
根據特徵下,不同類別之間的距離選擇距離最大的一些特徵。
五、least absolute shrinkage and selection operator(lasso)
基於線性回歸,在最小二乘的目標函式上新增l1正則項(絕對值)。也可以用於多模特徵選擇(多工學習)。
六、特徵選擇步驟
在特徵選擇過程中有前向逐步新增特徵的特徵選擇方案,也有後向逐步刪除特徵的特徵選擇方案,也有將兩者進行結合的混合特徵選擇方案,這些方案都是基於模型的特徵選擇方案。
特徵選擇常用演算法綜述
ML 常見的特徵提取方法
華電北風吹 日期 2015 11 20 特徵提取不同於特徵選擇,特徵提取是利用原有的特徵根據一定的演算法提取出原始特徵中包含的抽象特徵。一 pca 主成分分析 pca的是一種無監督的特徵降維方法。確切來說,pca不是一種特徵降維方法,pca一次尋找一組正交的對映空間,並且使得能夠在這個對映空間上方差...
常見特徵選擇方法
特徵選擇就是從原始特徵中選取一些最有效的特徵來降低維度,提高模型泛化能力減低過擬合的過程,主要目的是剔除掉無關特徵和冗餘特徵,選出最優特徵子集。計算各個特徵的方差,剔除小於設定的閾值的特徵,剔除特徵值 波動較小的特徵,例如乙個特徵的所有值都為1,那這個特徵對於 目標變數就沒什麼作用 方法很簡單,但實...
特徵選擇 常見方法總結
特徵選擇方法 目的 減少特徵數量 降維,使模型泛化能力更強,減少過擬合增強對特徵和特徵值之間的理解 方法 一 方差選擇法。from sklearn.feature selection import variancethreshold a.特徵值需為離散型變數,若是連續型,需要連續變數離散化。b.最簡...