1view codeimport
pandas;
23 data =pandas.read_csv(4"
d:\\pdm\\5.3\\data.csv"5
);67 dummycolumns = ["
gender
", "
parentencouragement"]
89for column in
dummycolumns:
10 data[column]=data[column].astype('
category')
1112 dummiesdata =pandas.get_dummies(
13data,
14 columns=dummycolumns,
15 prefix=dummycolumns,
16 prefix_sep="="
,17 drop_first=true18)
19dummiesdata.columns
2021 fdata =dummiesdata[[22'
parentincome
', '
iq', '
gender=male',
23'parentencouragement=not encouraged'24
]]25
26 tdata = dummiesdata["
collegeplans"]
2728
from sklearn.tree import
decisiontreeclassifier
29from sklearn.ensemble import
randomforestclassifier
30from sklearn.model_selection import
cross_val_score
3132 dtmodel =decisiontreeclassifier()
3334 dtscores =cross_val_score(
35dtmodel,
36 fdata, tdata, cv=1037)
3839
dtscores.mean()
4041 rfcmodel =randomforestclassifier()
4243 rfcscores =cross_val_score(
44rfcmodel,
45 fdata, tdata, cv=1046)
4748 rfcscores.mean()
決策樹評分:
隨機森林評分:
發現隨機森林在不調優的情況下,得分高於決策樹模型
1view code#對連個模型進行調優
2 dtmodel=decisiontreeclassifier(max_leaf_nodes=8)
34 dtscores=cross_val_score(
5dtmodel,
6 fdata,tdata,cv=10)78
dtscores.mean()
910 rfcmodel=randomforestclassifier(max_leaf_nodes=8)
1112 rfcscores=cross_val_score(
13rfcmodel,
14 fdata,tdata,cv=10)
1516 rfcscores.mean()
決策樹評分:
隨機森林評分:
Python資料探勘之隨機森林
主要是使用隨機森林將four列缺失的資料補齊。fit到randomforestregressor之中,n estimators代表隨機森林中的決策樹數量 n jobs這個引數告訴引擎有多少處理器是它可以使用。1 意味著沒有限制,而 1 值意味著它只能使用乙個處理器。import pandas as ...
python隨機分配 python 隨機分類
encoding utf 8 import pandas as pd import numpy as np from sklearn import datasets,linear model from sklearn.metrics import roc curve,auc import pylab...
資料探勘之分類
分類的定義 通過學習得到目標函式f 也叫 分類模型 把每個屬性集x對映到乙個預先定義好的類稱號y。相關定義 訓練集 屬性 類標號 模型 測試集 分類與聚類的區別 聚類 無指導的學習,事先沒有標籤,而通過某種成因分析找出事物之間存在聚集性原因的過程。面對一堆資料,將這堆資料分成幾類 分類 有指導的學習...