機器學習 演算法 GG

2021-10-21 06:08:02 字數 1929 閱讀 4399

機器學習

真實值為1

真實值為0

**為1

tpfp

**為0

fntn

tp: true positive

tp:樣本為正,**結果為正;

fp:樣本為負,**結果為正;

tn:樣本為負,**結果為負;

fn:樣本為正,**結果為負。

準確率、精準率和召回率的計算公式如下:

準確率(accuracy): (tp + tn )/( tp + fp + tn + fn)

精準率(precision):tp / (tp + fp),正確**為正佔全部**為正的比例

召回率(recall): tp / (tp + fn),正確**為正佔全部正樣本的比例

f1 = 2*pr / p+r

tprate = (**正確的正例) / 樣本中1的總數

fprate = (**成1的負例) / 樣本中0的個數

roc曲線:

以真正例率為縱座標,以假正例率為橫縱標

auc是roc的面積

決策樹非葉子節點 代表測試的條件,對資料屬性的測試

分支 代表測試的結果

葉子結點 分類後所獲得的分類標記

熵 物體內部的混亂程度

熵小 物體較穩定 純

熵大 混亂 不穩定

決策樹 根節點的確定(計算機計算得到)

構造書的原則:隨著樹深度的增加,節點的熵迅速的降低,熵降低的速度越快越好,這樣有希望得到一顆高度最矮的樹

第一步: 基於各個屬性劃分結果

依據這四個屬性分別計算各自的熵值

outlook = overvast 熵 = 0

id3 資訊增益

c4.5 資訊增益率

有些屬性如(id)的資訊增益很大,但是對最終結果沒有任何影響,為了避免這種情況,選擇資訊增益率

cart 基尼係數

剪枝 樹的規模過於龐大是需要進行剪枝

預剪枝:在構建決策樹的過程中,提前停止

後剪枝:決策樹構建好後,然後才開始剪枝

類似於損失函式

評價函式中增加tleaf:葉子結點的數量

構造多個決策樹

隨機森林

多個決策樹對於相同資料盡心測試,它的結果可能不一致

因此我們需要這些決策樹的結果,進行選擇

隨機森林

雙重隨機性

1、資料隨機性:進行乙個樣本的選擇,進行有放回的取樣

2、特徵隨機性;隨機選擇幾個特徵進行隨機樹的建立,因為有些特徵可能對整體效果有負增益

sklearn可以構建隨機樹

seaborn庫,畫圖

12 10學習筆記(gg機器學習)

標籤 我們要 的真實事物 y。基本線性回歸中的y變數。特徵 用於描述資料的輸入變數 xi。基本線性回歸中的變數 樣本 資料的特定例項x0 有標籤樣本 同時包含特徵和標籤,我們使用有標籤樣本來訓練模型。無標籤樣本 包含特徵但不包含標籤,用於對新資料作出 模型 定義了特徵與標籤之間的關係,可將樣本對映到...

機器學習演算法

from 這裡,主要說一下,機器學習演算法的思想和應用!為了以後的應用總結一下!參考王斌譯的機器學習實戰一書。1 svd 奇異值分解 svd可以簡化資料,去除雜訊!對於簡化資料,使用svd,可以用小得多的資料集表示原有資料集。這樣實際上是去除了雜訊和冗餘資訊。比如有乙個32 32的影象,通過svd的...

機器學習演算法

1.c4.5演算法。c4.5 演算法與id3 演算法一樣,都是數學分類演算法,c4.5 演算法是id3 演算法的乙個改進。id3演算法採用資訊增益進行決策判斷,而 c4.5 採用的是增益率。2.cart演算法。cart 演算法的全稱是分類回歸樹演算法,他是乙個二元分類,採用的是類似於熵的基尼指數作為...