高階演算法 基礎概念梳理

2021-09-25 23:15:23 字數 2103 閱讀 3220

1、整合學習

整合方法是將幾種機器學習技術組合成乙個**模型的元演算法,以達到減小方差、偏差或改進**的效果,通過弱學習器組合成強學習器。

序列整合方法:adaboost,gbdt,模型之間強依賴

並行整合方法:隨機森林,模型之間無依賴

2、個體學習器

個體學習器整合學習的單元學習器,是整合學習的基礎學習器。

3、boosting的概念

通過初始訓練樣本訓練得到模型,在上一輪模型迭代基礎上通過擬合殘差減少殘差(adaboost)或者減少上一輪模型殘差的方式(gbdt)不斷迭代,弱模型生成最終強模型。

4、bagging的概念

有放回抽樣k次,訓練k個模型,分別**測試集,綜合**結果。

5、boosting與bagging對比

(1) bagging是有放回的抽樣,樣例權重相同,boosting樣本不變,根據上次訓練結果調整樣本樣例權重進行本次迭代

(2) bagging**函式權重相等,boosting每個弱分類器都有自己的權重

(3) bagging可以並行訓練,模型相互不依賴,boosting依賴上一輪迭代

6、不同結合策略

6.1 平均法

6.1.1 簡單平均

通過直接平均不同模型產生的類別置信度得到最終**結果 

6.1.2 加權平均

直接平均的基礎上加入權重來調節不同模型輸出間的重要程度

6.2 投票法

是一種多數表決法,表決前需先將各自模型返回的**置信度轉化為**類別,即最高置信度對應的類別標記  ∈ 作為該模型的**結果。多數表決法中在得到樣本 x 的最終**時,若某**類別獲得一半以上模型投票,則該樣本**結果為該類別; 若對該樣本無任何類別獲得一半以上投票,則拒絕作出**。

另一種是相對多數表決法 , 與多數表決法會輸出「拒絕**」不同的是,相對多數表決法一定會返回某個類別作為**結果, 因為相對多數表決是選取投票數最高的類別作為最後**結果。

注:不同型別的基學習器的類概率值不能直接比較,需轉化為類標記再投票

6.3 學習法

次級訓練集利用首次訓練**結果作為輸入直接訓練模型,如k折,將每折的**結果拼接為次級訓練樣本

7、隨機森林思想

分類問題:每棵決策樹都是乙個分類器,對於乙個輸入樣本,n棵樹會有n個分類結果。而隨機森林整合了所有的分類投票結果,將投票次數最多的類別指定為最終的輸出。回歸問題:n個弱學習器得到的回歸結果進行算術平均得到的值為最終的模型輸出。

8、隨機森林的推廣

extra trees是rf的乙個變種, 原理幾乎和rf一模一樣,僅有區別有:

1) 對於每個決策樹的訓練集,rf採用的是隨機取樣bootstrap來選擇取樣集作為每個決策樹的訓練集,而extra trees一般不採用隨機取樣,即每個決策樹採用原始訓練集。

2) 在選定了劃分特徵後,rf的決策樹會基於基尼係數,均方差之類的原則,選擇乙個最優的特徵值劃分點,這和傳統的決策樹相同。但是extra trees比較的激進,他會隨機的選擇乙個特徵值來劃分決策樹。

從第二點可以看出,由於隨機選擇了特徵值的劃分點位,而不是最優點位,這樣會導致生成的決策樹的規模一般會大於rf所生成的決策樹。也就是說,模型的方差相對於rf進一步減少,但是偏倚相對於rf進一步增大。在某些時候,extra trees的泛化能力比rf更好。

參考:9、隨機森林的優缺點

缺點:(1) 隨機森林已經被證明在某些噪音較大的分類或者回歸問題上會過擬合,

(2) 對於小資料或者低維資料(特徵較少的資料),可能不能產生很好的分類

(3) 隨機森林在解決回歸問題時,並沒有像它在分類中表現的那麼好,因為它並不能給出乙個連續的輸出

優點:(1) 訓練速度快

(2) 對部分特徵缺失不敏感

(3) 由於採用隨機取樣,訓練出的模型的方差小,泛化能力強

10、隨機森林sklearn引數解釋(主要)

max_features:rf劃分時考慮的最大特徵數

max_depth:決策樹最大深度

min_samples_split:內部節點再劃分所需最小樣本數

min_samples_leaf: 葉子節點最少樣本數

n_estimators:樹的數量

11、隨機森林的應用場景

資料維度相對低,同時對準確性有較高要求

分類、回歸問題

Spark基礎概念梳理

因為最近在學習與使用spark,所以對一些基礎概念與術語做一些梳理。用來加深映像同時方便後續複習 spark是乙個基於記憶體的分布式計算框架,可無縫整合於現有的hadoop生態體系。主要包括四大元件 spark streaming spark sql spark mllib和spark graphx...

Hbase基礎概念 自我梳理

最近在了解hbase,寫點學習筆記方便自己梳理知識邏輯,也同大家有些交流,希望也能幫到同樣剛入門學習的新手,快速地了解其知識背景。因為很多專業詞彙我不知其中文對應,所以就不翻譯了,其實我認為有些詞彙從中文看反而難以理解,英文更能讓你快速get到其concept真正的意思。1.hbase特點 首先要從...

高階演算法梳理之隨機森林

本系列將重點續寫整合演算法,其中包括隨機森林 rf gbdt xgb lightgbm,本文將重點介紹隨機森林演算法 rf 整合學習,有個說法叫 三個臭皮匠,頂乙個諸葛亮 如下圖所示,簡單來說就是對於訓練集資料,我們通過訓練若干個個體學習器,通過一定的結合策略,就可以最終形成乙個強學習器,以達到博採...