機器學習基礎自學三(資料特徵)

2021-10-02 11:44:05 字數 1150 閱讀 7640

from pandas import read_csv

from sklearn.decomposition import pca#主要成分分析

from sklearn.feature_selection import rfe#遞迴特徵消除

from sklearn.linear_model import logisticregression#線性回歸

from sklearn.ensemble import extratreesclassifier#袋裝決策樹演算法

# 匯入資料

filename = 'd:\example\machinelearning-master\pima_data.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

data = read_csv(filename, names=names)

# 將資料分為輸入資料和輸出結果

array = data.values

x = array[:, 0:8]

y = array[:, 8]

# 特徵選定

pca = pca(n_components=3)#把原始資料降維到3個維度

fit = pca.fit(x)

print("解釋方差:%s" % fit.explained_variance_ratio_)

print(fit.components_)

model = logisticregression()#邏輯回歸演算法,

rfe = rfe(model, 3)#選出影響最大的三個資料特徵

fit = rfe.fit(x, y)

print("特徵個數:")

print(fit.n_features_)

print("被選定的特徵:")

print(fit.support_)

print("特徵排名:")

print(fit.ranking_)

model = extratreesclassifier()

fit = model.fit(x, y)

print(fit.feature_importances_)

機器學習 特徵工程(三)

簡單來說就是講特徵數量減少。去掉不需要的特徵。常用方式 主要方法 filter 過濾式 variancethreshold 方差 embedded 嵌入式 正則化 決策樹 後期介紹 包裹式 神經網路 後期介紹 從方差大小來考慮特徵的數值情況 api sklearn.feature selection...

機器學習基礎自學筆記2

1.1學習演算法 機器學習演算法是一種能夠從資料中學習的演算法。mitchell提供乙個簡潔的定義 對於某類任務和效能度量p,乙個電腦程式被認為可以從經驗e中學習是指,通過經驗e改進後,它在任務t上由效能度量p衡量的效能有所提公升。通常機器學習任務定義為機器學習系統應該如何處理樣本 example ...

機器學習基礎自學筆記2

1.1學習演算法 機器學習演算法是一種能夠從資料中學習的演算法。mitchell提供乙個簡潔的定義 對於某類任務和效能度量p,乙個電腦程式被認為可以從經驗e中學習是指,通過經驗e改進後,它在任務t上由效能度量p衡量的效能有所提公升。通常機器學習任務定義為機器學習系統應該如何處理樣本 example ...