參考大神:
個人理解:
1、特徵選擇:
從原始的高維特徵向量集合中,選擇出m個最能代表向量空間的向量作為子集。去除掉冗餘,最大化相關。
2、 特徵選擇的理由:
原始提取出的特徵一般數量很大,維度很高。在用分類器進行分類的時候,往往太耗費時間。特徵選擇能夠選出最具代表性的特徵,來優化模型,較少冗餘。可以提高分類器的速度和準確度,還能提高可理解性。
3、特徵選擇過程:
可以分為四個部分:產生過程;評價函式;停止準則;驗證過程。
1)產生過程:利用搜尋函式,選擇出之前確定的m個特徵子集。搜尋函式有例如:sfs,bds, sffs 等。
2) 評價函式:可以分為篩選器和封裝器兩種。
filter: 利用某乙個函式,作為對子集特徵好壞的評價。相關的函式例如:相關,距離,資訊增量,分類錯誤率,一致性,這些準則。
4)驗證過程:利用已經了解分類的測試集,進行測試驗證。
大體的降維過程:
原始材料
- - -- 提取高維特徵(eg. pcet)- - >原始高維特徵集合------特徵選擇(eg. sffs )--->適當的特徵子集。
( - - - 分類器- ----->合適的分類)
對於特徵的評價也可以通過很多已有的程式來完成,比如說matlab 中的svm.
在模式識別中:
作為訓練集的資料,會事先給出,高維資料,和 其所屬的類別c. 首先進行特徵降維的時候,會選擇出前m個和c關聯最大的特徵向量。 相關程度可以通過互資訊 i (xi;c) 來測量。不過研究表明,並非前m個最大相關的特徵會導致最好的分類效果。 因此還要進行一定的處理,比如說去掉冗餘之類的。
特徵選擇和特徵抽取
特徵提取演算法分為特徵選擇和特徵抽取兩大類。特徵選擇 不改變原始的特徵資料,只是選擇一部分出來。其中常用的特徵選擇演算法有 1 df document frequency 文件頻率 df 統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 2 mi mutual information 互資訊法 ...
特徵值和特徵向量理解
1 線性變換 首先來個線性方程組 換個表達方式,所以可以寫成如下格式,現在有矩陣a,列向量x和y,向量x通過矩陣a線性變換到y,如下圖 2 接下來,我們說明上述公式的幾何意義。也就是 這就一目了然了,x 經過線性變換後變為y,涉及到了兩個變化,伸縮和旋轉,也就是x先作伸縮變換,然後旋轉到y的位置。矩...
維度災難和特徵選擇
4.怎麼避免維度災難 一句話 維度是乙個數字,表徵每個樣本中特徵的數量。機器學習中,對於資料一般用n m n mn m矩陣表達,n nn表示樣本 sample 數量,m mm表示特徵 attribute feature variable 數量。如下圖,即是4 2 4 24 2的矩陣,表示有4條資料,...