降維
降維是指在某些限定條件下,較低特徵的個數,得到一組「不相關」的主變數的過程
1、特徵選擇
1.1 方法:
嵌入式embedded
模組:sklearn.feature_selection
1.2 方差選擇
sklearn.feature_selection.variancethreshold(threshold=0)
def
variance_demo()
: data=pd.read_csv(
"factor_returns.csv"
) data=data.iloc[:,
1:-2
]print
(data)
transfer=variancethreshold(threshold=10)
data_final=transfer.fit_transform(data)
print
(data_final,data_final.shape)
將原本九個特徵篩選剩下7個特徵
1.3 相關係數
皮爾遜相關係數(pearson correlation coefficient),反映變數之間相關關係密切程度的統計指標
所以我們最終得出結論是廣告投入費與月平均銷售額之間有高度的正相關關係
from scipy.stats import pearsonr
……r = pearsonr(data[
"pe_ratio"
],data[
"pb_ratio"])
print
(r)
對於相關性係數比較高的特徵,有三種處理方法
選取其中乙個
加權求和
主成分分析
主成分分析:
定義:高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料、創造新的變數
作用:是資料維數壓縮,盡可能降低原資料的維數(複雜度), 損失少量資訊。
應用:回歸分析或者聚類分析當中
sklearn.decomposition.pca(n_components=none)
def
pca_demo()
: data=[[
2,8,
4,5]
,[6,
3,0,
8],[
5,4,
9,1]
] transfer=pca(2)
data_new=transfer.fit_transform(data)
print
(data_new)
機器學習基礎 特徵預處理及降維(筆記二)
通過一些轉換函式將特徵資料轉換成更加適合演算法模型的特徵資料過程 包含內容 數值型資料的無量綱化 歸一化標準化 特徵的單位或者大小相差較大,或者某特徵的方差相比其他的特徵要大出幾個數量級,容易影響 支配 目標結果,使得一些演算法無法學習到其他的特徵。使用無量綱化使不同規格的資料轉換到同一規格 api...
特徵預處理
一 定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料。二 方法 一 數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 二 類別型資料 one hot編碼 三 時間型別 時間的切分 三 sklearn特徵處理api sklearn.preprocessing 四 歸一化 一 原...
特徵預處理,特徵選擇
統一量綱 特徵規格不一樣,不能放在一起比較。主要看模型,比如樹模型就不太需要,而計算距離之類的模型,或者神經網路就需要 主要有標準化,區間放縮,歸一化。標準化 標準化,均值為0,方差為1 from sklearn.preprocessing import standardscaler 標準化,返回值...