既然弱分類器是決策樹,那就先用決策樹分類吧。
常見的決策樹演算法有id3,c4.5和cart樹,這裡我選用cart樹。
1,確定權值
因為是第一次計算,所以每個權值初始化為0.1,即w1 = (w11, w12, ..., w110) = (0.1,0.1, ..., 0.1)
2,確定弱分類器:
用a, b, c表示「身體、業務、潛力」這三個特徵
2.1,求gini:
gini(d,a = 1)
ps1:d1:身體為0的樣本,d2:身體為1的樣本,d:所有樣本
ps2:w_d1_sum:d1的權值和,w_d2_sum:d2的權值和
ps3:原本的公式中沒有
w_d1_sum
和w_d2_sum
,但是根據
adaboost
演算法,我們需要在確定弱分離器的分類標準時將每個樣本的權值作用到裡面,所以我新增了這個。
ps4:ps3
是個人想法,可能不是最恰當的做法,還望指正。
ps5:因為最初所有的權值都一樣,因此這次我就不計算
w_d1_sum
和w_d2_sum
了,因此這裡得出的
gini
都沒有計算
w_d1_sum
和w_d2_sum。
同理求出b和c的gini:
2.2,選出最小的gini作為最優切分點
因為gini(d, c=2)最小,所以「『潛力』的特徵『2』」是最優切分點。
2.3,切分。
此時有決策樹:
原始樣本
左分支(屬於潛力2) 右分支(屬於非潛力2)
樣本3,6,7 樣本1,2,4,5,8,9,10
2.4,對左分支和右分支不停的重複以上步驟,得出第乙個決策樹,這裡為了簡單起見,我對決策樹進行「前剪枝」,即:規定決策樹的層數只有1層,因此我的決策樹到此為止,而這就是第乙個弱分類器g1(x)。
3,計算誤差率。
對於上述決策樹,經計算發現:左分支中有2個誤分類到-1類,右分支中有1個誤分類1類,所以一共有3個誤分類點,其權值的和為0.3,即誤差率是e1 = 0.3。
4,計算g1(x)的係數。
a1= (1/2) log [(1-e1)/e1]
5,更新訓練資料的權值分布
w2= (w21, w22, ...,w210)
w2i= (w1i/z1)exp(-a1yig1(xi)),i = 1, 2,..., 10
6,確定強分類器f(x)
此時的強分類器是:f(x)= a1g1(x)
7,重複以上步驟,直到誤分類點個數為0,或者滿足自己的需求。
統計學習方法概論 《統計學習方法》李航著
統計學習由 監督學習,非監督學習,半監督學習和強化學習組成。監督學習方法主要包括 分類 標註 與 回歸問題 回歸問題 輸入變數 和 輸出變數 均為連續變數的 問題 分類問題 輸出變數為有限個離散變數的 問題 標註問題 輸入與輸出變數均為變數序列的 問題 統計學習三要素 模型,策略,演算法 損失函式度...
《統計學習方法》 李航 學習大綱
最近在學習李航寫的統計學習方法概論,每一章都用xmind理清了思路,括號裡是書裡的公式,第一次寫博文,敬請指教 第一章 統計學習方 第二章 感知機 每個方法其實只需要著重掌握三要素和輸入輸出就可以了,主要看模型 策略和演算法。感知機主要是二類分類的線性分類模型。看到後面會注意感知機和支援向量機的區別...
李航統計學習方法筆記1 統計學習方法概論
模型 由輸入到輸出的對映 假設空間 由輸入空間到輸出空間的對映多集合 模型 由條件概率分布p y x 或決策函式y f x 表示 損失函式 度量模型一次 的好壞,用乙個損失函式來度量 錯誤的程度 風險函式 度量平局意義下模型 的好壞 經驗風險 模型f x關於訓練資料集的平均損失 當模型上條件概率分布...