指標重要性反映了自變數對因變數的影響幅度,是特徵工程的重要工作。
####### 快速計算變數重要性
## data_df : 待計算原始資料;
## obj_columns:目標變數列名
defcaliv_by_randomforestclassifier
(data_df , obj_columns)
:from sklearn.ensemble import randomforestclassifier
clf = randomforestclassifier(
) y = data_df[obj_columns]
x = data_df.drop(obj_columns , axis =1)
model = clf.fit(x , y)
model.feature_importances_
from collections import ordereddict
res_dsec = ordereddict(
) res_dsec[
'col_name'
]= x.columns.tolist(
) res_dsec[
'val'
]= model.feature_importances_
res = pd.dataframe(res_dsec)
res = res.sort_values(
'val'
)return res
函式的呼叫
if __name__ ==
'__main__'
:import pandas as pd
import numpy as np
data = pd.read_csv(
'data/cs-training.csv'
) data.describe(
) data.columns.tolist(
)### 採用隨機森林模型計算iv值
iv= caliv_by_randomforestclassifier(data ,
'seriousdlqin2yrs'
)
隨機森林演算法python實現
樣本資料 1.實現根據樣本資料 用眼距離distance 最長持續用眼時長duration 總用眼時長total time 戶外運動時長outdoor 用眼角度angle 健康環境光照用眼比例proportion 判別是否需要近視預警 2.樣本實在太少,結果還行,原理都是一樣的 import pan...
隨機森林演算法
random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...
隨機森林演算法原理 機器學習演算法 隨機森林
隨機森林是一種通用的機器學習方法,能夠處理回歸和分類問題。它還負責資料降維 缺失值處理 離群值處理以及資料分析的其他步驟。它是一種整合學習方法,將一組一般的模型組合成乙個強大的模型 我們通過適用隨機的方式從資料中抽取樣本和特徵值,訓練多個不同的決策樹,形成森林。為了根據屬性對新物件進行分類,每個數都...