雜訊:部分特徵對**結果有負影響
特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵,特徵在選擇前和選擇後可以改變值、也可以不改變值,但是選擇後的特徵維數肯定比選擇前小,畢竟我們只選擇了其中的一部分特徵
輸出:[[2, 0 ], [1, 4], [1, 1]]
1pca是一種分析、簡化資料集的技術from sklearn.feature_selection import
variancethreshold23
4#資料降維,特徵選擇
5def
var():
6"""
方差特徵選擇,刪除低方差的特徵
"""7 v = variancethreshold(threshold=0.0) #
引數大小根據實際情況
8 data = v.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
9print
(data)
1011
12if
__name__ == '
__main__':
13 var()
是資料維數壓縮,盡可能降低原資料的的維數(複雜度),損失少量資訊
可以削減回歸分析或者聚類分析中特徵的數量
特徵之間通常是線性相關的
1from sklearn.decomposition import
pca234
defpca():
5"""
主成分分析,進行資料降維
"""6 pca = pca(n_components=0.9)
7 data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
8print
(data)910
11if
__name__ == '
__main__':
12 pca()
特徵提取,特徵選擇,降維
特徵提取就是將機器學習演算法不理解的原始資料抽取特徵出來,這些特徵可以描述原始的資料,使得這些特徵可以被機器學習演算法所理解,這些特徵也就作為機器學習演算法的輸入。在machine learning中,特徵降維和特徵選擇是兩個常見的概念,在應用machine learning來解決問題的 中經常會出...
特徵選擇和降維的區別
學習的過程中,關於特徵選擇和降維都是防止資料過擬合的有效手段,但是兩者又有本質上的區別。降維降維本質上是從乙個維度空間對映到另乙個維度空間,特徵的多少別沒有減少,當然在對映的過程中特徵值也會相應的變化。舉個例子,現在的特徵是1000維,我們想要把它降到500維。降維的過程就是找個乙個從1000維對映...
特徵選擇和降維的區別
在學習的過程中,關於特徵選擇和降維都是防止資料過擬合的有效手段,但是兩者又有本質上的區別。降維降維本質上是從乙個維度空間對映到另乙個維度空間,特徵的多少別沒有減少,當然在對映的過程中特徵值也會相應的變化。舉個例子,現在的特徵是1000維,我們想要把它降到500維。降維的過程就是找個乙個從1000維對...