主要是使用隨機森林將four列缺失的資料補齊。
# fit到randomforestregressor之中,n_estimators代表隨機森林中的決策樹數量
#n_jobs這個引數告訴引擎有多少處理器是它可以使用。 「-1」意味著沒有限制,而「1」值意味著它只能使用乙個處理器。import
pandas as pd
#資料分析,引入pandas包,用以資料分析
import pandas as pd #結果:資料分析,引入pandas包,用以資料分析
from sklearn.ensemble import randomforestregressor #
隨機森林
data=[[2,3,4],[6,7,8],[9,10,11,12],[52,84,62],[53,95,41,1],[12,92,12,21],[63,12,41,15],[85,76,43,1],[15,123,45,91],[952,42,1,3]]
df=pd.dataframe(data,columns=['
one','
two','
three
','four'])
df2=df[['
four
','one
','two
','three']]
print('
****************************')
(df2)
known_data=df2[df2.four.notnull()].as_matrix()
unknown_data=df2[df2.four.isnull()].as_matrix()
y=known_data[:,0]
x=known_data[:,1:]
rfr = randomforestregressor(n_estimators=2000, n_jobs=-1)
rfr.fit(x, y)
predicteddatas = rfr.predict(unknown_data[:,1:])
print('
****************************')
df2.loc[(df2.four.isnull()),
'four
']=predicteddatas
(df2)
print('
****************************
')
Python資料探勘 分類 隨機森林
1 import pandas 23 data pandas.read csv 4 d pdm 5.3 data.csv 5 67 dummycolumns gender parentencouragement 89for column in dummycolumns 10 data column ...
Python之隨機森林實戰
實現 1 coding utf 8 2 3created on tue sep 4 09 38 57 201845 author zhen 6 78 from sklearn.ensemble import randomforestclassifier 9from sklearn.model sel...
隨機森林 python
這 幾天一直在看隨機森林。可以說遇到任何乙個有關 的問題。都可以首先隨機森林來進行 同時得到的結果也不會太差。在這篇文章裡我首先會向大家推薦幾篇寫的比較好的部落格。接著會將我覺得比較好的例子使用python scikit learn包來實現出來。首先推薦的就是 隨機森林入門 簡化版 老外寫的部落格,...