Python資料探勘分類隨機森林

1
import
pandas;
23 data =pandas.read_csv(4"
d:\\pdm\\5.3\\data.csv"5
);67 dummycolumns = ["
gender
", "
parentencouragement"]
89for column in
dummycolumns:
10     data[column]=data[column].astype('
category')
1112 dummiesdata =pandas.get_dummies(
13data, 
14     columns=dummycolumns,
15     prefix=dummycolumns,
16     prefix_sep="="
,17     drop_first=true18)
19dummiesdata.columns
2021 fdata =dummiesdata[[22'
parentincome
', '
iq', '
gender=male',
23'parentencouragement=not encouraged'24
]]25
26 tdata = dummiesdata["
collegeplans"]
2728
from sklearn.tree import
decisiontreeclassifier
29from sklearn.ensemble import
randomforestclassifier
30from sklearn.model_selection import
cross_val_score
3132 dtmodel =decisiontreeclassifier()
3334 dtscores =cross_val_score(
35dtmodel, 
36     fdata, tdata, cv=1037)
3839
dtscores.mean()
4041 rfcmodel =randomforestclassifier()
4243 rfcscores =cross_val_score(
44rfcmodel, 
45     fdata, tdata, cv=1046)
4748 rfcscores.mean()

view code

決策樹評分：

隨機森林評分：

發現隨機森林在不調優的情況下，得分高於決策樹模型

1
#對連個模型進行調優
2 dtmodel=decisiontreeclassifier(max_leaf_nodes=8)
34 dtscores=cross_val_score(
5dtmodel,
6         fdata,tdata,cv=10)78
dtscores.mean()
910 rfcmodel=randomforestclassifier(max_leaf_nodes=8)
1112 rfcscores=cross_val_score(
13rfcmodel,
14     fdata,tdata,cv=10)
1516 rfcscores.mean()

view code

決策樹評分：

隨機森林評分：

Python資料探勘之隨機森林

主要是使用隨機森林將four列缺失的資料補齊。fit到randomforestregressor之中，n estimators代表隨機森林中的決策樹數量 n jobs這個引數告訴引擎有多少處理器是它可以使用。1 意味著沒有限制，而 1 值意味著它只能使用乙個處理器。import pandas as ...

python隨機分配 python 隨機分類

encoding utf 8 import pandas as pd import numpy as np from sklearn import datasets,linear model from sklearn.metrics import roc curve,auc import pylab...

資料探勘之分類

分類的定義通過學習得到目標函式f 也叫分類模型把每個屬性集x對映到乙個預先定義好的類稱號y。相關定義訓練集屬性類標號模型測試集分類與聚類的區別聚類無指導的學習，事先沒有標籤，而通過某種成因分析找出事物之間存在聚集性原因的過程。面對一堆資料，將這堆資料分成幾類分類有指導的學習...

Python資料探勘 分類 隨機森林

Python資料探勘之隨機森林

python隨機分配 python 隨機分類

資料探勘之分類

相關推薦

Python資料探勘分類隨機森林