關於資料降維函式sklearn PCA的使用

2021-08-07 08:06:39 字數 860 閱讀 6042

對大資料來說可能很有用

pca是主成分分析,用來降維,用少量的變數去解釋大部分變數,使得變數維度減少,從而減少計算量。

# 先看看pca建構函式中的預設引數

'''def __init__(self, n_components=none, copy=true, whiten=false,

svd_solver='auto', tol=0.0, iterated_power='auto',

random_state=none)

n_components : 通俗的說 就是將其縮小到的維度(當》=1)

copy : true 代表原來資料不變 反之 則會改變

whiten : 白化 使得每個特徵有相同的方差

... 待更新 自己還在研究 等乾貨

'''# 簡單小例子 -_- 一看就懂 -_-

from sklearn.decomposition import pca

pcaclf = pca(n_components=3, whiten=true)

pcaclf.fit(data)

data_pca = pcaclf.transform(data) # 用來降低維度

'''pcaclf.components_ # 返回模型的各個特徵向量

pcaclf.explained_variance_ratio_ # 返回各個成分各自的方差百分比(貢獻率)

pcaclf = pca(n_components='mle') # 自動降低維度

pcaclf.inverse_transform(newdata) # 必要時可以用inverse_transform()來復原資料

'''

人工稚能之sklearn資料降維

人工稚能 沒錯,就叫 人工稚能 因為是入門系列,表示內容比較稚嫩,適合初學者,說我手抖了什麼的最討厭了。機器學習模型擬合的輸入資料往往是多維資料,這個維度可能會非常龐大。比如統計一篇文章中的單詞頻率,就可以把文章看成單詞的向量。而單詞的數量又是非常龐大,每個單詞都是乙個維度,這樣大維度的資料在擬合時...

sklearn庫的總結 降維方式

可以看到庫的演算法主要有四類 分類,回歸,聚類,降維。其中 常用的回歸 線性 決策樹 svm knn 整合回歸 隨機森林 adaboost gradientboosting bagging extratrees 常用的分類 線性 決策樹 svm knn,樸素貝葉斯 整合分類 隨機森林 adaboos...

(sklearn)機器學習(六)特徵降維

ndarray 維數 0維 標量 1維 向量 2維 矩陣 對二維陣列降維 此處的降維 降低特徵的個數降維的兩種方法 特徵選擇 filter過濾式 方差選擇法 低方差特徵過濾 相關係數 特徵與特徵之間的相關程度 embedded 嵌入式 決策樹正則化 深度學習 主成分分析低方差特徵過濾 特徵方差小 某...