PYTHON 用隨機森林演算法快速計算指標重要性

2021-10-19 05:15:19 字數 1128 閱讀 2574

指標重要性反映了自變數對因變數的影響幅度,是特徵工程的重要工作。

####### 快速計算變數重要性

## data_df : 待計算原始資料;

## obj_columns:目標變數列名

defcaliv_by_randomforestclassifier

(data_df , obj_columns)

:from sklearn.ensemble import randomforestclassifier

clf = randomforestclassifier(

) y = data_df[obj_columns]

x = data_df.drop(obj_columns , axis =1)

model = clf.fit(x , y)

model.feature_importances_

from collections import ordereddict

res_dsec = ordereddict(

) res_dsec[

'col_name'

]= x.columns.tolist(

) res_dsec[

'val'

]= model.feature_importances_

res = pd.dataframe(res_dsec)

res = res.sort_values(

'val'

)return res

函式的呼叫

if __name__ ==

'__main__'

:import pandas as pd

import numpy as np

data = pd.read_csv(

'data/cs-training.csv'

) data.describe(

) data.columns.tolist(

)### 採用隨機森林模型計算iv值

iv= caliv_by_randomforestclassifier(data ,

'seriousdlqin2yrs'

)

隨機森林演算法python實現

樣本資料 1.實現根據樣本資料 用眼距離distance 最長持續用眼時長duration 總用眼時長total time 戶外運動時長outdoor 用眼角度angle 健康環境光照用眼比例proportion 判別是否需要近視預警 2.樣本實在太少,結果還行,原理都是一樣的 import pan...

隨機森林演算法

random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...

隨機森林演算法原理 機器學習演算法 隨機森林

隨機森林是一種通用的機器學習方法,能夠處理回歸和分類問題。它還負責資料降維 缺失值處理 離群值處理以及資料分析的其他步驟。它是一種整合學習方法,將一組一般的模型組合成乙個強大的模型 我們通過適用隨機的方式從資料中抽取樣本和特徵值,訓練多個不同的決策樹,形成森林。為了根據屬性對新物件進行分類,每個數都...