boosting方法是一種將弱學習器提公升為強學習器的演算法。
最著名的代表是 adaboost 演算法。它學習過程中,對分類正確的樣本降低了權重,對分類錯誤的樣本公升高權重或保持不變。
在演算法中,需要對訓練樣本分佈進行重新調整。有兩種調整方式:
重新賦權法:即在訓練的每一輪中,根據樣本分佈為每乙個訓練樣本重新賦予乙個權重。
重取樣法:即在每一輪訓練中,根據樣本分佈對訓練集重新取樣,利用重取樣的樣本進行訓練。
對於無法接受帶權重樣本的學習演算法,可以通過重取樣法。但在boosting 訓練中,每一輪訓練後都會檢查當前的學習器是否比隨機猜測要好,滿足保留,否則被拋棄。在這種情況下,也許學習的基學習器遠遠達不到預先設定的個數。
而採用重取樣法,可以避免這種情況發生。重取樣後如果不滿足,可以再次重新取樣對基學習器重新訓練。
從偏差-方差的角度來看,boosting 方法主要關注於降低偏差,因為在訓練過程中,不斷強調那些被分類錯誤的樣本。
原理:基於自助取樣法,從原始的樣本集中取樣出若干個不同的訓練子集,從每乙個子集中學習出不同的基學習器。
對**輸出結合時,分類任務可採取簡單投票法,回歸任務可採取簡單平均法。
自助取樣的另乙個優點在於,每個基學習器只使用了大概63.2%的樣本,剩下的36.8%樣本完全可以用來作為驗證集進行泛華效能估計。
bagging方法更關注於減小分類器的方差
隨機森林是bagging方法的乙個變體,它以決策樹為基學習器,決策樹的訓練過程中引入了隨機屬性選擇。傳統決策樹是在當前節點的屬性集合中選擇乙個最優屬性,而在rf中,對於每乙個節點,先從屬性集合中選擇出包含 k 個屬性的子集,再從子集中選擇乙個最優屬性作劃分。
引數 k 控制了隨機性的引入程度,k = 1的話就是隨機選擇乙個屬性進行劃分,等於 屬性數的話就和傳統決策樹相同。一般,推薦 k = logk。
隨機森林的基學習器的多樣性不僅來自樣本擾動,還來自屬性的擾動,這就使得最終整合的泛華效能近一步提公升。
隨機森林的起始效能會比較差,因為屬性的擾動。但隨著學習器的數目增加,通常會降低到更低的泛華誤差。
從統計的角度看, 單學習器的泛華效能不佳,結合多個學習器會有效降低這個風險;
從計算上來看,學習演算法往往會陷入區域性最優,通過多次的學習器執行,可降低陷入區域性最優的風險;
從表示的角度來看,某些學習任務的假設空間可能並不在當前學習演算法的假設空間內,導致演算法的效果差。而通過多個學習器的結合,相應的假設空間有所擴大,更有可能靠近真實假設。
最常用的基分類器是決策樹,有三個原因:
決策樹可以較為方便的將樣本權重整合到訓練中,而不需要使用重取樣的方式調整樣本權重(?);
決策樹的表達能力和泛華能力,可以通過控制樹的層數來做折中;
資料樣本的擾動對決策樹的影響較大,因此不同的樣本子集生成的決策樹隨機性較大,更適合作為基分類器。
神經網路模型,也可以作為基分類器,因為神經網路的模型也相對不穩定,神經元的數量、連線方式、網路層數、初始的權值都會對模型產生很大影響。
隨機森林是基於bagging方法的整合學習,主要好處是降低了分類器的方差。bagging採用的基分類器最好是本身對樣本分佈比較敏感的,這樣後續的樣本分佈調整才會產生比較好的效果。而線性分類器或者k-近鄰屬於比較穩定的學習器,本身方差就不大,所以用它們作為基分類器並不能取得很好的效果,甚至可能因為取樣會加大整合分類器的偏差。
機器學習之KNN演算法學習筆記
1.1 cover和hart在1968年提出了最初的鄰近演算法 1.2 分類 classification 演算法 回歸演算法,這裡討論的是分類演算法 1.3 輸入基於例項的學習 instance based learning 懶惰學習 lazy learning 為了判斷未知例項的類別,以所有已知...
機器學習演算法之整合學習
在機器學習問題中,對於乙個複雜的任務來說,能否將很多的機器學習演算法組合在一起,這樣計算出來的結果會不會比使用單一的演算法效能更好?這樣的思路就是整合學習方法。三個臭皮匠,頂個諸葛亮。實際操作中,整合學習把大大小小的多種演算法融合在一起,共同協作來解決乙個問題。這些演算法可以是不同的演算法,也可以是...
機器學習之PCA演算法學習
pca全稱principal component analysis,即主成分分析,是一種常用的資料降維方法。它可以通過線性變換將原始資料變換為一組各維度線性無關的表示,以此來提取資料的主要線性分量。其中,z為低維矩陣,x為高維矩陣,w為兩者之間的對映關係。假如我們有二維資料 原始資料有兩個特徵軸 特...