最小徑集的演算法 機器學習的利器 整合演算法

2021-10-14 13:12:53 字數 2068 閱讀 6197

最近在打算法競賽的時候用到了整合演算法,效果還不錯,索性就總結了一篇整合演算法的文章,希望能幫到正在轉行的資料分析師們。

整合演算法核心思想

整合演算法的核心思想是通過構建並結合多個學習器來完成學習任務,也就是通俗意義上的三個「臭皮匠」頂個「諸葛亮」。

關注問題:1、如何產生一組「個體學習器」?

2、如何利用某種策略將「個體學習器」結合起來?

整合演算法種類

根據個體學習器的生成方式,最常用的整合演算法可以分為兩大類,即個體學習器間存在強依賴關係(多項式學習演算法)必須序列生成的序列化演算法【boosting方法,代表演算法:adaboost演算法boosting tree】,以及個體學習器之間不存在強依賴關係,通過並行生成的整合演算法【bagging方法,代表演算法:隨機森林(randon forest)

bagging

1、演算法原理:

2、取樣策略

自助取樣法,有放回抽樣n次得到樣本量為n的訓練樣本集用於每次基分類器的訓練

3、基學習器組合策略

對於分類問題,基分類器採用投票法得到結果,對於回歸問題,通過對基分類器的**值取平均值得到結果。

4、演算法步驟:

4、隨機森林

4.1演算法原理

以決策樹作為基學習器構建bagging整合,並在決策樹的訓練過程中引入隨機屬性選擇。

4.2隨機性:

隨機森林的隨機性體現在樣本的隨機性和特徵選擇的隨機性

boosting

1、演算法原理:

通過改變訓練樣本的權重,學習多個分類器,並將這些分類器進行線性組合,提公升分類效能。大多數的提公升方法都是改變訓練資料的概率分布(權值),針對不同的訓練資料分布呼叫弱分類演算法學習一系列弱分類器。

2、adaboost

2.1演算法原理:

2.2演算法步驟:

2.3機器學習視角的解釋:

modelset:加法模型,基學習模型的線性組合

lossfunction:指數損失函式【分類問題】

優化策略:前向分步演算法

3、提公升樹

3.1核心思想

以分類樹或回歸樹為基本分類器的提公升方法,加法模型,與前向分步演算法,以決策樹為基分類器的提公升方法,串聯決策樹模型,第乙個決策樹擬合具體數學,以後的決策樹擬合前乙個決策樹的殘差。

3.2演算法步驟:

3.3機器學習視角的解釋:

modelset:加法模型,基學習模型的線性組合

lossfunction:指數損失函式【分類問題】、平方誤差損失函式【回歸問題】

優化策略:前向分步演算法

常見面試問題

1、bagging與boosting的區別

boosting:各個**函式只能順序生成,因為後乙個模型引數需要前一輪模型的結果。

2、隨機森林與gdbt(提公升樹)的區別:

機器學習的訓練集 驗證集和測試集

在機器學習中,最佳的資料分類情況是把資料集分為三部分,分別為 訓練集 train set 驗證集 validation set 和測試集 test set 訓練集很好理解就是訓練我們的模型。那麼驗證集和測試集有什麼作用?首先需要了解的是在乙個機器學習模型中,模型的引數分為普通引數和超引數,普通引數比...

機器學習中的訓練集 驗證集 測試集

訓練集用來訓練模型,即確定模型的權重和偏置這些引數,通常我們稱這些引數為學習引數。而驗證集用於模型的選擇,更具體地來說,驗證集並不參與學習引數的確定,也就是驗證集並沒有參與梯度下降的過程。驗證集只是為了選擇超引數,比如網路層數 網路節點數 迭代次數 學習率這些都叫超引數。比如在k nn演算法中,k值...

機器學習中的訓練集 驗證集 測試集

用來訓練分類器中的引數,擬合模型。會使用超引數的不同取值,擬合出多個分類器,後續再結合驗證集調整模型的超引數。當通過訓練集訓練出多個模型後,為了能找出效果最佳的模型,使用各個模型對驗證集資料進行 並記錄模型準確率。選出效果最佳的模型所對應的超引數,即用來調整模型超參。通過訓練集和驗證集得出最優模型後...