機器學習
真實值為1
真實值為0
**為1
tpfp
**為0
fntn
tp: true positive
tp:樣本為正,**結果為正;
fp:樣本為負,**結果為正;
tn:樣本為負,**結果為負;
fn:樣本為正,**結果為負。
準確率、精準率和召回率的計算公式如下:
準確率(accuracy): (tp + tn )/( tp + fp + tn + fn)
精準率(precision):tp / (tp + fp),正確**為正佔全部**為正的比例
召回率(recall): tp / (tp + fn),正確**為正佔全部正樣本的比例
f1 = 2*pr / p+r
tprate = (**正確的正例) / 樣本中1的總數
fprate = (**成1的負例) / 樣本中0的個數
roc曲線:
以真正例率為縱座標,以假正例率為橫縱標
auc是roc的面積
決策樹非葉子節點 代表測試的條件,對資料屬性的測試
分支 代表測試的結果
葉子結點 分類後所獲得的分類標記
熵 物體內部的混亂程度
熵小 物體較穩定 純
熵大 混亂 不穩定
決策樹 根節點的確定(計算機計算得到)
構造書的原則:隨著樹深度的增加,節點的熵迅速的降低,熵降低的速度越快越好,這樣有希望得到一顆高度最矮的樹
第一步: 基於各個屬性劃分結果
依據這四個屬性分別計算各自的熵值
outlook = overvast 熵 = 0
id3 資訊增益
c4.5 資訊增益率
有些屬性如(id)的資訊增益很大,但是對最終結果沒有任何影響,為了避免這種情況,選擇資訊增益率
cart 基尼係數
剪枝 樹的規模過於龐大是需要進行剪枝
預剪枝:在構建決策樹的過程中,提前停止
後剪枝:決策樹構建好後,然後才開始剪枝
類似於損失函式
評價函式中增加tleaf:葉子結點的數量
構造多個決策樹
隨機森林
多個決策樹對於相同資料盡心測試,它的結果可能不一致
因此我們需要這些決策樹的結果,進行選擇
隨機森林
雙重隨機性
1、資料隨機性:進行乙個樣本的選擇,進行有放回的取樣
2、特徵隨機性;隨機選擇幾個特徵進行隨機樹的建立,因為有些特徵可能對整體效果有負增益
sklearn可以構建隨機樹
seaborn庫,畫圖
12 10學習筆記(gg機器學習)
標籤 我們要 的真實事物 y。基本線性回歸中的y變數。特徵 用於描述資料的輸入變數 xi。基本線性回歸中的變數 樣本 資料的特定例項x0 有標籤樣本 同時包含特徵和標籤,我們使用有標籤樣本來訓練模型。無標籤樣本 包含特徵但不包含標籤,用於對新資料作出 模型 定義了特徵與標籤之間的關係,可將樣本對映到...
機器學習演算法
from 這裡,主要說一下,機器學習演算法的思想和應用!為了以後的應用總結一下!參考王斌譯的機器學習實戰一書。1 svd 奇異值分解 svd可以簡化資料,去除雜訊!對於簡化資料,使用svd,可以用小得多的資料集表示原有資料集。這樣實際上是去除了雜訊和冗餘資訊。比如有乙個32 32的影象,通過svd的...
機器學習演算法
1.c4.5演算法。c4.5 演算法與id3 演算法一樣,都是數學分類演算法,c4.5 演算法是id3 演算法的乙個改進。id3演算法採用資訊增益進行決策判斷,而 c4.5 採用的是增益率。2.cart演算法。cart 演算法的全稱是分類回歸樹演算法,他是乙個二元分類,採用的是類似於熵的基尼指數作為...