資料降維:減少特徵數量
一、特徵選擇
1、特徵選擇原因
雜訊:部分特徵對**結果由影響
2、特徵選擇是什麼
filter(過濾式)
方差大小:考慮所有樣本這個特徵的資料情況
sklearn.feature_selection.variancethreshold二、主成分分析variancethreshold(threshold=0.0)刪除所有低方差特徵
variance.fit_transform(x)
in [1]
:from sklearn.feature_selection import variancethreshold
var = variancethreshold(threshold=
0.0)
data = var.fit_transform([[
0,2,
0,3]
,[0,
1,4,
3],[
0,1,
1,3]
])data
out [1]
:array([[
2,0]
,[1,
4],[
1,1]
])
1、pca是什麼
2、pca語法
將資料分解為較低維數空間n_components:小數(降維後保留資料的百分之幾)、整數(降維後的維數)
x:numpy array格式的資料[n_samples,n_features]返回值:轉換後指定維度的array
in [2]
:from sklearn.decomposition import pca
in [3]
:pca = pca(n_components=
0.9)
data = pca.fit_transform([[
2,8,
4,5]
,[6,
3,0,
8],[
5,4,
9,1]
])data
out [3]
:array([[
1.28620952e-15
,3.82970843e+00],
[5.74456265e+00,-
1.91485422e+00],
[-5.74456265e+00,-
1.91485422e+00]]
)
三、降維案例
1、合併表
pd.merge(prior, products, on=[『prodict_id』,『product_id』])
2、建立乙個類似行,列資料(交叉表——特殊分組表)
cross = pd.crosstab(mt[user_id], mt[『aisle』])
3、進行主成分分析
pca = pca(n_components=0.9)
data = pca.fit_transform(cross)
機器學習之降維
降維的意義 克服維數災難,獲取本質特徵,節省儲存空間,去除無用雜訊,實現資料視覺化 資料壓縮 視覺化資料 主成分分析 pca pca演算法 python 調庫實現 import matplotlib.pyplot as plt 畫圖 from sklearn.datasets import load...
機器學習之PCA降維
1.前言 如果學習分類演算法,最好從線性的入手,線性分類器最簡單的就是lda,它可以看做是簡化版的svm,如果想理解svm這種分類器,那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...
機器學習 降維
資料降維的主要方法 投影和流形學習 投影 高維空間的所有訓練例項實際上 或近似於 受乙個低得多的低維子空間所影響 投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如 著名的瑞士卷玩具資料集 簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分,...