機器學習基礎

2022-09-28 05:36:11 字數 1348 閱讀 5454

決策樹

決策樹怎麼建樹,基尼係數公式

決策樹的生成是個遞迴過程,cart演算法採用基尼指數選擇最優特徵,建樹過程如下:

遞迴對每個節點進行以下操作,構建二叉決策樹:

=== 3點考慮

基尼指數公式:

其中d表示給定樣本集合,$d_k$是d中屬於第k類的樣本子集,k是類的個數

當按照某個屬性a進行劃分後,此時的基尼係數為:

在選擇合適的決策節點時,就按照使基尼係數最小的那個屬性來劃分。

參考文章

整合學習

adaboost擬合目標是什麼

adaboost演算法是前向分步加法演算法的特例。模型是由基本分類器組成的加法模型,損失函式是指數函式。

強分類器(最終得到的模型,即基學習器的線性組合)計算公式:

其中x是輸入向量,f(x)是強分類器, $f_t(x)$是弱分類器, $a_t$ 是弱分類器的權重值,是乙個正數,t為弱分類器的數量。弱分類器的輸出值為+1或-1,分別對應於正樣本和負樣本。分類時的判定規則為:

其中sgn是符號函式。強分類器的輸出值也為+1或-1,同樣對應於正樣本和負樣本。弱分類器和它們的權重值通過訓練演算法得到。之所以叫弱分類器是因為它們的精度不用太高。

adaboost的loss採用指數損失,基分類器最常見的是決策樹(在很多情況下是決策樹樁,深度為1的決策樹)。在每一輪提公升相應錯分類點的權重可以被理解為調整錯分類點的observation probability。

參考文章

adaboost介紹一下,每個基學習器的權重怎麼得到的

分類器重要性α更新規則(對應西瓜書上的解釋)

推導前先回顧一下演算法的偽**:

開始論證

在adaboost中,第乙個分類器h1是通過基學習演算法用於初始資料分不而得,此後迭代生成ht和αt,當基分類器ht基於dt產生後,該基分類器權重αt應使得αt*ht最小化損失函式.

當前基學習器分類錯誤的概率:

對損失函式求導:

令導數為0得:

恰好對應偽**的第六步.

參考文章

機器學習基礎 機器學習基礎引入

機器學習 是人工智慧的核心研究領域之一,其最初的研究動機是為了讓計算機系統具有人的學習能力以便實現人工智慧。事實上,由於 經驗 在計算機系統中主要是以資料的形式存在的,因此機器學習需要設法對資料進行分析,這就使得它逐漸成為智慧型資料分析技術的創新源之一。機器學習是構建複雜系統的一種方法,也許依靠我們...

機器學習基礎學習筆記 機器學習基礎介紹

概念 多領域交叉學科,設計概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。學科定位 人工智慧 artificial intelligence,ai 的核心,是是計算機具有智慧型...

機器學習 二 機器學習基礎

機器學習基礎概念 關於資料 監督學習 機器學習的基本任務,具體可以做什麼?結果是乙個連續數字的值,而非乙個類別 回歸任務可以劃分成分類任務。給機器的訓練資料擁有 標記 或者 答案 例如 1.影象已經擁有了標定資訊 2.銀行已經積累了一定的客戶資訊和他們信用卡的信用情況 3.醫院已經積累了一定的病人資...