from pandas import read_csv
from sklearn.decomposition import pca#主要成分分析
from sklearn.feature_selection import rfe#遞迴特徵消除
from sklearn.linear_model import logisticregression#線性回歸
from sklearn.ensemble import extratreesclassifier#袋裝決策樹演算法
# 匯入資料
filename = 'd:\example\machinelearning-master\pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
# 將資料分為輸入資料和輸出結果
array = data.values
x = array[:, 0:8]
y = array[:, 8]
# 特徵選定
pca = pca(n_components=3)#把原始資料降維到3個維度
fit = pca.fit(x)
print("解釋方差:%s" % fit.explained_variance_ratio_)
print(fit.components_)
model = logisticregression()#邏輯回歸演算法,
rfe = rfe(model, 3)#選出影響最大的三個資料特徵
fit = rfe.fit(x, y)
print("特徵個數:")
print(fit.n_features_)
print("被選定的特徵:")
print(fit.support_)
print("特徵排名:")
print(fit.ranking_)
model = extratreesclassifier()
fit = model.fit(x, y)
print(fit.feature_importances_)
機器學習 特徵工程(三)
簡單來說就是講特徵數量減少。去掉不需要的特徵。常用方式 主要方法 filter 過濾式 variancethreshold 方差 embedded 嵌入式 正則化 決策樹 後期介紹 包裹式 神經網路 後期介紹 從方差大小來考慮特徵的數值情況 api sklearn.feature selection...
機器學習基礎自學筆記2
1.1學習演算法 機器學習演算法是一種能夠從資料中學習的演算法。mitchell提供乙個簡潔的定義 對於某類任務和效能度量p,乙個電腦程式被認為可以從經驗e中學習是指,通過經驗e改進後,它在任務t上由效能度量p衡量的效能有所提公升。通常機器學習任務定義為機器學習系統應該如何處理樣本 example ...
機器學習基礎自學筆記2
1.1學習演算法 機器學習演算法是一種能夠從資料中學習的演算法。mitchell提供乙個簡潔的定義 對於某類任務和效能度量p,乙個電腦程式被認為可以從經驗e中學習是指,通過經驗e改進後,它在任務t上由效能度量p衡量的效能有所提公升。通常機器學習任務定義為機器學習系統應該如何處理樣本 example ...