整合學習的理論基礎是pac 理論、強可學習與弱可學習理論。
整合演算法中主要分為bagging演算法與boosting演算法,
boosting(提公升法),過程如下:
bagging和boosting 的主要區別
主要區別
bagging
boosting
樣本選擇
隨機有放回的取樣(bootstraping)
每一輪訓練的樣本是固定的,改變的是每個樣本的權重
樣本權重
均勻取樣,且每個樣本的權重相同根據錯誤率調整樣本權重,錯誤率越大的樣本權重會變大
**函式
所有的**函式權值相同
誤差越小的**函式其權值越大
計算過程
各個**函式可以並行生成各個**函式必須按照順序序列生成
隨機森林(random forest)演算法原理
隨機森林實際上是一種特殊的bagging方法,它將決策樹用作bagging中的模型。
隨機森林的方法由於有了bagging(整合的思想)在,
bagging與隨機森林演算法原理小結
1.extra trees
2.totally random trees embedding
3.isolation forest
訓練可以高度並行化,對於大資料時代的大樣本訓練速度有優勢。個人覺得這是的最主要的優點。
由於可以隨機選擇決策樹節點劃分特徵,這樣在樣本特徵維度很高的時候,仍然能高效的訓練模型。
在訓練後,可以給出各個特徵對於輸出的重要性
由於採用了隨機取樣,訓練出的模型的方差小,泛化能力強。
相對於boosting系列的adaboost和gbdt, rf實現比較簡單。
對部分特徵缺失不敏感。
在某些噪音比較大的樣本集上,rf模型容易陷入過擬合。
取值劃分比較多的特徵容易對rf的決策產生更大的影響,從而影響擬合的模型的效果。
class
sklearn
.ensemble.randomforestclassifier(
n_estimators=10,
# 森林裡(決策)樹的數目
criterion=
'gini'
,# 衡量**質量的效能(函式)
max_depth=
none
,# (決策)樹的最大深度
min_samples_split=2,
# 分割內部節點所需要的最小樣本數量
min_samples_leaf=1,
# 需要在葉子結點上的最小樣本數量
min_weight_fraction_leaf=
0.0,
# 乙個葉子節點所需要的權重總和(所有的輸入樣本)的最小加權分數
max_features=』auto』,
# 尋找最佳分割時需要考慮的特徵數目
max_leaf_nodes=
none
,# 葉子節點的數量閥值
min_impurity_decrease=
0.0,
# 節點**(不純度的下降程度)閥值
min_impurity_split=
none
,# 早停閾值
bootstrap=
true
,# 是否使用有放回抽樣
oob_score=
false
,# 是否使用袋外樣本來估計泛化精
n_jobs=1,
# 執行緒數
random_state=
none
,# 隨機數生成器使用的種子
verbose=0,
# 控制決策樹建立過程的冗餘度
warm_start=
false
,# 熱啟動
class_weight=
none
# 分類權重
)
分類?多分類?
回歸?有缺失值的樣本?
TASK1 隨機森林演算法梳理
整合學習是訓練多個個體學習器 常為弱分類器 根據一定的結合策略形成乙個強監督模型,其思想是即便某乙個弱分類器得到了錯誤的 其他的弱分類器也可以將錯誤糾正回來。整合學習可用於分類問題整合,回歸問題整合,特徵選取整合,異常點檢測整合等等。根據個體學習器的生成方式分為 個體學習器間存在強依賴關係 必須序列...
高階演算法梳理 Task1 整合學習及隨機森林演算法
本文依據周志華西瓜書及多個相關博文總結而成.整合學習 ensemble learning 通過構建並結合多個學習器來完成學習任務,其組成結構是 先產生一組個體學習器 individual learning 再用某種策略將他們結合起來.整合學習通過將多個學習器進行結合 常可獲得比單一學習器顯著優越的泛...
Task1 線性回歸演算法梳理
1.有監督學習 訓練資料有標記 2.無監督學習 訓練資料沒有標記 3.泛化能力 學得模型適用於新樣本的能力 4.過擬合欠擬合 方差和偏差以及各自解決辦法 1 過擬合 當學習器把訓練樣本學得太好時,可能已經把訓練樣本自身的一些特點當作了所有潛在樣本都會有的一般性質,這樣就會導致泛化效能下降。解決方法 ...