降維: 減少特徵,稱之為降維(這裡的維不再是 陣列裡面的維度了)若現在有100個特徵,減少乙個 也可以稱之為降維
1. 特徵選擇
原因:1.冗餘:部分特徵相關度高,容易消耗計算效能
2.噪音: 部分特徵對**結果有影響
三大**:
1. filter(過濾式): variance threshold (從方差的角度去過濾)
api:
sklearn.feature_selection.variancethreshold
variance = variancethreshold(threshold=0) ---- 刪除所有低方差特性
variance.fit_transform(x)
x: numpy array資料格式
返回值:訓練集低於threshold的特徵被刪除。預設值是保留非0方差特徵,即刪除樣本中具有相同值特徵
eg:
1過濾式(資料也會改變,特徵數量也會減少 eg:兩個特徵差不多,就合併兩個特徵)def var(): #
方差過濾式23
'''4
過濾式5
:return:none
6'''
78 var = variancethreshold(threshold=0)
9 x = var.fit_transform([[1, 2, 3, 6],
10 [1, 6, 6, 8],
11 [1, 21, 6, 7]])
12print(x)
api: sklearn.decomposition
本質:pca是一種分析,簡化資料集的技術
目的:是資料維數壓縮,盡可能降低原資料維數(複雜度),損失少量資訊
作用:可以削減回歸分析或者聚類分析中特徵的數量
前提:特徵數量達到上百, 考慮資料的簡化
pca(n_components=none) n_components=0.9 (n_components為保留多少的特徵,一般在0.9-0.95)
將資料分解為低維數空間
pca.fit_transform(x)
x: numpy array格式的資料[n_samples, n_features]
返回值: 轉換後指定維度的array
def補充:pca():
pca = pca(n_components=0.92)
x = pca.fit_transform([[1, 2, 3, 6],
[1, 6, 6, 8],
[1, 21, 6, 7]])
print(x)
機器學習 降維
資料降維的主要方法 投影和流形學習 投影 高維空間的所有訓練例項實際上 或近似於 受乙個低得多的低維子空間所影響 投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如 著名的瑞士卷玩具資料集 簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分,...
機器學習 降維
資料壓縮 視覺化 pca principal component analysis 即主成分分析方法,是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地...
機器學習 降維
1 什麼是降維?數學知識 特徵值分解 設a是n階方陣,如果有常數 和n維非零列向量 的關係式 a 成立,則稱 為方陣a的特徵值,非零向量 稱為方陣a的對應於特徵值入的特徵向量 降維 將資料的特徵數量從高維轉換到低維 實際中很多資料是高維的,但資料 內在的維度 可能更低 例如 通訊資料原始有7維 入網...