PCA 決策樹 隨機森林

2021-10-04 02:17:28 字數 648 閱讀 3821

pca是無監督學習(沒有標籤只有特徵也可以做)基於降維後使方差最大使資料分的更大,目標是提取最有價值的資訊。使原始密集的點擴散開好做分類,降低維度後意義需要專家解釋(降維後可以對資料進行保密)可以降低資料冗餘性。

協方差表示線性離散度。不希望線性相關資料,用協方差描述。

決策樹既可以做分類也可以做回歸分為訓練階段和分類階段。gini係數和熵值意義差不多,越低分類效果越好,計算公式不一樣。熵值表示物體純度,希望模型更純。對於連續的資料可以離散化(比如0-5算1)

根節點擊取基本思想:隨著深度的增加,節點的熵值迅速降低。列舉所有屬性當根節點擊資訊增益(id3:熵值相減。越大越好)最大的定根節點。再去遞迴的算根節點。存在問題:(選擇無關屬性比如id,會使得資訊增益最大)。所以選擇資訊增益率(c4.5,id3/自身熵值)。cart(gini係數)

決策樹剪枝:分支太多導致過擬合。預剪枝:邊構建邊剪枝(提前指定深度)。後剪枝:決策樹構建好之後,才開始剪枝,構造評價函式葉子越多損失越大。

隨機森林:構造多顆決策樹投票,分類看眾數,回歸看平均數。

隨機:在訓練集隨機有放回抽取一定樣本的資料(減少異常點的影響)。特徵選擇也是隨機的。

正態分佈的偏度和峰度都是0。

偏度是資料的不對稱程度。

正峰度具有正峰度值的分布表明,相比於正態分佈,該分布有更重的尾部。

決策樹和隨機森林

決策樹 建立決策樹的關鍵,是在當前狀態下選擇那個屬性作為分類依據。根據不同的目標函式,建立決策樹主要有三個演算法 id3 iterative dichotomiser c4.5 cart classification and regression tree 資訊增益 當熵和條件熵中的概率由資料統計得...

決策樹和隨機森林

c4.5 cart 2,工具 能夠將dot檔案轉換為pdf png 3,執行命令 缺點 改進 建立10顆決策樹,樣本,特徵大多不一樣 隨機又放回的抽樣 bootstrap boolean,optional default true 是否在構建樹時使用放回抽樣。隨機森林的優點 import panda...

決策樹與隨機森林演算法

決策樹 分類樹 是一種樹形結構,其中每個內部節點表示乙個屬性上的測試,每個分支代表乙個測試輸出,每個葉節點代表一種類別。決策樹只需要構建一次,每一次 分類的最大計算次數不超過決策樹的深度。決策樹學習演算法 id3演算法 通過自頂向下構造決策樹來進行學習,構造過程是從 選取分類能力最好的屬性作為根節點...