Python資料探勘 分類 隨機森林

2022-09-08 07:51:10 字數 1826 閱讀 3435

1

import

pandas;

23 data =pandas.read_csv(4"

d:\\pdm\\5.3\\data.csv"5

);67 dummycolumns = ["

gender

", "

parentencouragement"]

89for column in

dummycolumns:

10 data[column]=data[column].astype('

category')

1112 dummiesdata =pandas.get_dummies(

13data,

14 columns=dummycolumns,

15 prefix=dummycolumns,

16 prefix_sep="="

,17 drop_first=true18)

19dummiesdata.columns

2021 fdata =dummiesdata[[22'

parentincome

', '

iq', '

gender=male',

23'parentencouragement=not encouraged'24

]]25

26 tdata = dummiesdata["

collegeplans"]

2728

from sklearn.tree import

decisiontreeclassifier

29from sklearn.ensemble import

randomforestclassifier

30from sklearn.model_selection import

cross_val_score

3132 dtmodel =decisiontreeclassifier()

3334 dtscores =cross_val_score(

35dtmodel,

36 fdata, tdata, cv=1037)

3839

dtscores.mean()

4041 rfcmodel =randomforestclassifier()

4243 rfcscores =cross_val_score(

44rfcmodel,

45 fdata, tdata, cv=1046)

4748 rfcscores.mean()

view code

決策樹評分:

隨機森林評分:

發現隨機森林在不調優的情況下,得分高於決策樹模型

1

#對連個模型進行調優

2 dtmodel=decisiontreeclassifier(max_leaf_nodes=8)

34 dtscores=cross_val_score(

5dtmodel,

6 fdata,tdata,cv=10)78

dtscores.mean()

910 rfcmodel=randomforestclassifier(max_leaf_nodes=8)

1112 rfcscores=cross_val_score(

13rfcmodel,

14 fdata,tdata,cv=10)

1516 rfcscores.mean()

view code

決策樹評分:

隨機森林評分:

Python資料探勘之隨機森林

主要是使用隨機森林將four列缺失的資料補齊。fit到randomforestregressor之中,n estimators代表隨機森林中的決策樹數量 n jobs這個引數告訴引擎有多少處理器是它可以使用。1 意味著沒有限制,而 1 值意味著它只能使用乙個處理器。import pandas as ...

python隨機分配 python 隨機分類

encoding utf 8 import pandas as pd import numpy as np from sklearn import datasets,linear model from sklearn.metrics import roc curve,auc import pylab...

資料探勘之分類

分類的定義 通過學習得到目標函式f 也叫 分類模型 把每個屬性集x對映到乙個預先定義好的類稱號y。相關定義 訓練集 屬性 類標號 模型 測試集 分類與聚類的區別 聚類 無指導的學習,事先沒有標籤,而通過某種成因分析找出事物之間存在聚集性原因的過程。面對一堆資料,將這堆資料分成幾類 分類 有指導的學習...