提公升方法(整合學習)

2021-08-20 14:14:37 字數 779 閱讀 1781

整合學習總結:

思想:由多個分類器組合成乙個效能更好的分類器。每個分類器應該好而不同,即本身準確率要足夠高,並且之間要有多樣性。

整合學習研究的核心:如何產生好而不同的分類器?既滿足準確性又滿足多樣性

分類:

1)序列化方法:個體之間存在強依賴關係,必須序列生成。boosting,是利用不同模型的相加,構成乙個更好的模型,求取模型一般都採用序列化方法,後面的模型依據前面的模型。

boosting——學習機制:

1)重賦權法

2)重取樣法

代表:

adboost

提公升樹,用樹做基學習器——用殘差不斷擬合出新的樹,加到樹上

梯度提公升樹,與提公升樹的區別在於,殘差的計算不同,普通的提公升樹的殘差是真正的差,梯度提公升樹用當前模型的負梯度來擬合殘差

2)並行化方法:不存在依賴關係,可同時生成。bagging,是對訓練樣本隨機抽樣,訓練處不同的模型,然後組合。

自助取樣法(訓練集中有放回的隨機抽取m個樣本)

構建t個取樣集,訓練t個分類器,然後結合(分類任務簡單的投票,回歸任務採用平均法)

代表:rf 隨機森林

隨機森林,相對於普通的bagging,引入了隨機屬性,在每個節點擊擇屬性時,引入隨機性(先在所有屬性中,選擇k個屬性,在這些屬性中選最優)

整合學習方法

整合學習方法是指組合多個模型,以獲得更好的效果,即將多個弱學習器組合成乙個強學習器,使整合的模型具有更強的泛化能力。整合學習主要有兩種方法 bagging和boosting。bagging方法是從原始的資料集中進行有放回的隨機抽樣,每次訓練從原始樣本中有放回的隨機抽取n個樣本,因為是有放回,所以某些...

提公升方法學習筆記

adaboost 用分錯的資料樣本來識別問題,通過調整分錯的資料樣本的權重來改進模型。偏差指的是 值的期望與真實值之間的差距,偏差越大,值越偏離真實資料的標籤。方差描述的是 值的變化範圍,離散程度,也就是離 值期望的距離,方差越大,資料的分布越分散。1.bagging 演算法對資料重取樣,然後在每個...

統計學習方法 提公升方法

在分類問題中,通過改變訓練樣本的權重,學習多個分類器,並將這些分類器線性組合,提高分類的效能 1.1 提公升方法adaboost演算法 1.1.1 提公升方法的基本思路 對於乙個複雜任務來說,將多個專家的判斷進行適當的綜合得出的判斷比任何乙個專家單獨的判斷好。三個臭皮匠頂個諸葛亮 強可學習 在概率近...