一、特徵選擇和特徵提取
特徵選擇(feature selection)和特徵提取(feature extraction)都屬於降維(dimension reduction)
這兩者達到的效果是一樣的,就是試圖去減少特徵資料集中的屬性(或者稱為特徵)的數目;但是兩者所採用的方式方法卻不同。
特徵提取的方法主要是通過屬性間的關係,如組合不同的屬性得到新的屬性,這樣就改變了原來的特徵空間。
特徵選擇的方法是從原始特徵資料集中選擇出子集,是一種包含的關係,沒有更改原始的特徵空間。
二、特徵提取的主要方法:
pca,lda,svd等。(svd本質上是一種數學的方法, 它並不是一種什麼機器學習演算法,但是它在機器學習領域裡有非常廣泛的應用)
三、特徵選擇的方法
1、filter方法
其主要思想是:對每一維的特徵「打分」,即給每一維的特徵賦予權重,這樣的權重就代表著該維特徵的重要性,然後依據權重排序。
主要方法有:recursive feature elimination algorithm(遞迴特徵消除演算法)
3、embedded方法
其主要思想是:在模型既定的情況下學習出對提高模型準確性最好的屬性。這句話並不是很好理解,其實是講在確定模型的過程中,挑選出那些對模型的訓練有重要意義的屬性。
主要方法:正則化。如嶺回歸就是在基本線性回歸的過程中加入了正則項。
三、特徵選擇的目標
引用自吳軍《數學之美》上的一句話:乙個正確的數學模型應當在形式上是簡單的。構造機器學習的模型的目的是希望能夠從原始的特徵資料集中學習出問題的結構與問題的本質,當然此時的挑選出的特徵就應該能夠對問題有更好的解釋,所以特徵選擇的目標大致如下:
提高**的準確性
構造更快,消耗更低的**模型
能夠對模型有更好的理解和解釋
最後總結之:
特徵提取是從雜亂無章的世界中,去到更高層的世界去俯瞰原始世界,你會發現很多雜亂無章的物理現象中背後暗含的道理是想通的,這時候你想用乙個更加普世的觀點和理論去解釋原先的理論,這個是特徵提取要做的事情。
而你仍呆在原始世界中,只是想對現有的「取其精華,去其糟粕」,這個是所謂特徵選擇。只是對現有進行篩選。
特徵提取和特徵選擇統稱為降維。(dimension reduction)
(八)特徵選擇與特徵提取
在描述物件的時候 模式識別中把每個物件都量化為一組特徵來描述,構建特徵空間是解決模式識別問題的第一步,其中通過直接測量得到的特徵稱為原始特徵。如 人體的各種生理指標 以描述健康狀況 數字影象中的每點的灰度值 以描述影象內容 原始特徵的形成一般包含三大類 物理 結構和數學特徵 物理和結構特徵 易於為人...
特徵提取,特徵選擇,降維
特徵提取就是將機器學習演算法不理解的原始資料抽取特徵出來,這些特徵可以描述原始的資料,使得這些特徵可以被機器學習演算法所理解,這些特徵也就作為機器學習演算法的輸入。在machine learning中,特徵降維和特徵選擇是兩個常見的概念,在應用machine learning來解決問題的 中經常會出...
特徵工程 特徵提取
特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...