學習的過程中,關於特徵選擇和降維都是防止資料過擬合的有效手段,但是兩者又有本質上的區別。
降維降維本質上是從乙個維度空間對映到另乙個維度空間,特徵的多少別沒有減少,當然在對映的過程中特徵值也會相應的變化。
舉個例子,現在的特徵是1000維,我們想要把它降到500維。降維的過程就是找個乙個從1000維對映到500維的對映關係。原始資料中的1000個特徵,每乙個都對應著降維後的500維空間中的乙個值。假設原始特徵中有個特徵的值是9,那麼降維後對應的值可能是3。
特徵選擇
特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵,特徵在選擇前和選擇後不改變值,但是選擇後的特徵維數肯定比選擇前小,畢竟我們只選擇了其中的一部分特徵。
舉個例子,現在的特徵是1000維,現在我們要從這1000個特徵中選擇500個,那個這500個特徵的值就跟對應的原始特徵中那500個特徵值是完全一樣的。對於另個500個沒有被選擇到的特徵就直接拋棄了。假設原始特徵中有個特徵的值是9,那麼特徵選擇選到這個特徵後它的值還是9,並沒有改變。
特徵選擇和降維的區別
在學習的過程中,關於特徵選擇和降維都是防止資料過擬合的有效手段,但是兩者又有本質上的區別。降維降維本質上是從乙個維度空間對映到另乙個維度空間,特徵的多少別沒有減少,當然在對映的過程中特徵值也會相應的變化。舉個例子,現在的特徵是1000維,我們想要把它降到500維。降維的過程就是找個乙個從1000維對...
特徵提取,特徵選擇,降維
特徵提取就是將機器學習演算法不理解的原始資料抽取特徵出來,這些特徵可以描述原始的資料,使得這些特徵可以被機器學習演算法所理解,這些特徵也就作為機器學習演算法的輸入。在machine learning中,特徵降維和特徵選擇是兩個常見的概念,在應用machine learning來解決問題的 中經常會出...
資料的特徵選擇與降維
雜訊 部分特徵對 結果有負影響 特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵,特徵在選擇前和選擇後可以改變值 也可以不改變值,但是選擇後的特徵維數肯定比選擇前小,畢竟我們只選擇了其中的一部分特徵 輸出 2,0 1,4 1,1 1 from sklearn.feature sele...