ndarray
維數:
0維:標量
1維:向量
2維:矩陣
。。。
對二維陣列降維
此處的降維:
降低特徵的個數
降維的兩種方法:
特徵選擇
filter過濾式
方差選擇法:低方差特徵過濾
相關係數 - 特徵與特徵之間的相關程度
embedded(嵌入式):
決策樹正則化
深度學習
主成分分析
低方差特徵過濾
特徵方差小:某個特徵大多樣本的值比較相近
特徵方差大:某個特徵很多樣本的值都有差別
sklearn api:
sklearn.feature_selection.variancethreshold(threshold = 0.0)
刪除所有低方差特徵
variance.fit_transform(x)
x: numpy array格式的資料[n_samples, n_features]
返回值:訓練集差異低於threshold的特徵將被刪除。
預設值是保留所有非零方差特徵,即刪除所有樣本中具有相同值的特徵。
api:
from scipy.stats import pearsonr
x :(n,)array_like
y :(n,)array_like returns:
(pearson's correlation coefficient,p-value
from scipy.stats import pearsonr
r = pearsonr(x,y) # 相關性(相關係數)
1)選擇其中乙個
2)加權求和
3)主成分分析
定義:高維資料轉化為低維資料的過程,此過程中可能會捨棄原有資料、創造新的變數
作用:是資料維數壓縮,盡可能降低原資料的維數(複雜度),損失少量資訊
應用:回歸分析或者聚類分析當中
from sklearn.decomposition import pca
api:
sklearn.decomposition.pca(n_components=
none
) 將資料分解為較低維數空間
n_components:
小數:表示保留百分比之多少的資訊
整數:減少到多少特徵
pca.fit_transform(x)
x: numpy array格式的資料[n_samples, n_features]
返回值:轉換後指定維度的array
機器學習 特徵降維
機器學習中的資料維度與真實世界的維度本同末離。機器學習中,通常需要將現實世界中的資料進行轉化,形成計算機能夠處理的資料向量的形式,而往往為了學習到較好的模型,需要的資料向量維度都是非常大的。從而導致了學習乙個模型或者演算法往往需要大量的資源的消耗,有時甚至產生維度災難的問題。因此,為了緩解這一問題,...
機器學習sklearn和字典特徵抽取
sklean資料集 sklearn資料集返回值介紹 def datasets demo sklearn資料集使用 獲取資料集 iris load iris print 鳶尾花資料集 n iris print 檢視資料集描述 n iris.descr print 檢視特徵值的名字 n iris.fea...
20191201 機器學習複習 特徵降維
降維 降低維度 維數 巢狀的維數 降維是二維陣列 降低特徵的個數 正是因為進行訓練的時候,我們都是使用特徵學習。如果特徵學習本身存在問題或者特徵之間關聯性比較強,對於演算法學習 會影響很大 降維的方法 特徵選擇 主成分分析 特徵選擇 資料中包含冗餘或相關變數 或稱特徵,屬性,指標 旨在從原有特徵中找...