python實現機器學習之隨機森林

這

幾天一直在看隨機森林。可以說遇到任何乙個有關**的問題。都可以首先隨機森林來進行**，同時得到的結果也不會太差。在這篇文章裡我首先會向大家推薦幾篇寫的比較好的部落格。接著會將我覺得比較好的例子使用python+scikit－learn包來實現出來。

首先推薦的就是：隨機森林入門—簡化版　　老外寫的部落格，是我目前覺得寫的最好的關於隨機森林的入門文章。重點講解來隨機森林的構造過程，並舉了墨西哥的人均收入的問題來進行隨機森林概念的講解。

其次是：scikit-learn的官方文件：　　主要告訴大家如何使用scikit-learn包中的類方法來進行隨機森林演算法的**。其中講的比較好的是各個引數的具體用途。

這裡我給出我的理解和部分翻譯：

引數說明：

最主要的兩個引數是n_estimators和max_features。

n_estimators：表示森林裡樹的個數。理論上是越大越好。但是伴隨著就是計算時間的增長。但是並不是取得越大就會越好，**效果最好的將會出現在合理的樹個數。

max_features：隨機選擇特徵集合的子集合，並用來分割節點。子集合的個數越少，方差就會減少的越快，但同時偏差就會增加的越快。根據較好的實踐經驗。如果是回歸問題則：

max_features＝n_features，如果是分類問題則max_features＝sqrt(n_features)。

如果想獲取較好的結果，必須將max_depth＝none,同時min_sample_split=1。

同時還要記得進行cross_validated（交叉驗證），除此之外記得在random forest中，bootstrap=true。但在extra-trees中，bootstrap=false。

這裡也給出一篇老外寫的文章：調整你的隨機森林模型引數　

這裡我使用了scikit-learn自帶的iris資料來進行隨機森林的**：

[python]

view plain

copy

from

sklearn.tree

import

decisiontreeregressor

from

sklearn.ensemble

import

randomforestregressor

import

numpy as np

from

sklearn.datasets

import

load_iris

iris=load_iris()

#print iris#iris的４個屬性是：萼片寬度　萼片長度　花瓣寬度　花瓣長度　標籤是花的種類：setosa versicolour virginica

iris[

'target'

].shape

rf=randomforestregressor()#這裡使用了預設的引數設定

rf.fit(iris.data[:150

],iris.target[:

150])

#進行模型的訓練

# #隨機挑選兩個**不相同的樣本

instance=iris.data[[100

,109

]]

instance

'instance 0 prediction；'

,rf.predict(instance[

0])

'instance 1 prediction；'

,rf.predict(instance[

1])

iris.target[

100],iris.target[

109]

返回的結果如下：

(150,)

[[ 6.3 3.3 6. 2.5]

[ 7.2 3.6 6.1 2.5]]

instance 0 prediction； [ 2.]

instance 1 prediction； [ 2.]

2 2在這裡我有點困惑，就是在scikit-learn演算法包中隨機森林實際上就是一顆顆決策樹組成的。但是之前我寫的決策樹部落格中是可以將決策樹給顯示出來。但是隨機森林卻做了黑盒處理。我們不知道內部的決策樹結構，甚至連父節點的選擇特徵都不知道是誰。所以我給出下面的**（這**不是我的原創），可以顯示的顯示出所有的特徵的貢獻。所以對於貢獻不大的，甚至是負貢獻的我們可以考慮刪除這一列的特徵值，避免做無用的分類。

[python]

view plain

copy

from

sklearn.cross_validation

import

cross_val_score, shufflesplit

x = iris["data"

] y = iris["target"

] names = iris["feature_names"

] rf = randomforestregressor()

scores =

fori

inrange(x.shape[

1]):

score = cross_val_score(rf, x[:, i:i+1

], y, scoring=

"r2"

, cv=shufflesplit(len(x), 3

, .3

))

), names[i]))

sorted(scores, reverse=

true

)

顯示的結果如下：

[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]

這裡我們會發現petal width、petal length這兩個特徵將起到絕對的貢獻，之後是sepal length，影響最小的是sepal width。這段**將會提示我們各個特徵的貢獻，可以讓我們知道部分內部的結構。

python實現機器學習之隨機森林

機器學習隨機森林及python實現

機器學習 python調包實現隨機森林回歸演算法

機器學習之隨機森林（一）

python實現機器學習之隨機森林

機器學習 隨機森林及python實現

機器學習 python調包實現 隨機森林回歸演算法

機器學習之隨機森林（一）

相關推薦

機器學習隨機森林及python實現

機器學習 python調包實現隨機森林回歸演算法