當特徵選擇完成之後,就可以直接訓練模型了,但是可能由於特徵矩陣過大導致計算量大,訓練時間長的問題;因此,降低特徵矩陣維度,也是必不可少的,主成分分析就是最常用的降維方法,在減少資料集的維度的同時,保持對方差貢獻最大的特徵,在sklearn中,我們使用pca類進行主成分分析。
我們人類能看到的資料是三維資料,那麼怎樣把四維資料壓縮到三維資料呢?
#匯入iris特徵資料到data變數中
import pandas
from sklearn import datasets
import matplotlib.pyplot as plt
from sklearn.decomposition import pca
from mpl_toolkits.mplot3d import axes3d
iris =datasets.load_iris()
data = iris.data
#分類變數到target變數中
target = iris.target
#使用主成分分析,將四維資料壓縮為三維
pca_3 = pca(n_components=3)
data_pca_3 = pca_3.fit_transform(data)
#繪圖colors=
markers=
#彈出圖形
#%matplotlib qt
#三維資料
fig = plt.figure(1,figsize=(8,6))
ax = axes3d(fig,elev=-150,azim=110)
data_pca_gb = pandas.dataframe(
data_pca_3
).groupby(target)
for g in data_pca_gb.groups:
ax.scatter(
data_pca_gb.get_group(g)[0],
data_pca_gb.get_group(g)[1],
data_pca_gb.get_group(g)[2],
c=colors[g],
marker=markers[g],
cmap=plt.cm.paired
)plt.show()
生成的效果圖如下:
《特徵工程三部曲》之三 維度壓縮
1 pca 更夠保持對方差貢獻最大的特徵。1 最近重構性 樣本到這個超平面的距離都足夠近 2 最大可分性 樣本點到這個超平面的投影都能盡可能的分開 2 svd 奇異值分解 矩陣分解方法 左奇異向量用於壓縮行,右奇異向量壓縮列,壓縮方法均是取奇異值較大的左奇異向量和右奇異向量與原資料c相乘。pca 是...
特徵工程三部曲 (1)特徵選擇
特徵質量的好壞,直接影響到最終的模型結果。構建特徵是乙個很大的工程,總體來講包括 特徵選擇 特徵表達 和 本篇文章,我們討論一下特徵選擇。特徵選擇指的是,在全部的特徵中,挑選出對最終的機器學習任務有用的特徵。整體來講,從特徵選擇的過程中有沒有模型的參與,可以將特徵選擇的方法分為 基於統計量的選擇和基...
簽到功能之三部曲
簽到功能之三部曲 簽到功能是絕大多數遊戲都具備的功能,今天討論的是簽到系統的三種表現型別以及組合方式,歡迎指正 一 從簽到功能的作用看其本質 簽到功能的作用 上線即可獲得一定獎勵 可看出本質是 來玩就白送 可看出目的是 通過資源投放增加玩家上線率與留存率 二 由其本質衍生至它的表現型別 雖然是贈送,...