資料探勘學習筆記 AdaBoost演算法 一

2021-09-07 08:51:42 字數 1392 閱讀 4448

宣告: 這篇筆記是自己對adaboost原理的一些理解,如果有錯,還望指正,俯謝~

adaboost演算法,這個演算法思路簡單.

adaboost演算法,是一種組合演算法(

通過多個弱分類器,組合成乙個強分類器):

關於adaboost演算法的流程,簡單的描述,我們以a short introduction to boosting中提到的用adaboosting進行二分類來描述一

下adaboost演算法的具體流程:

1; 不妨假設給定要訓練的資料報含下面三個資訊data; 注意:num表示的分類的數目,這裡num=2;

1.1 data也是乙個大小n的陣列,我們這裡假定有t個弱分類器(t的大小需要自定義,原則上越大越好,但是t了會有效能問題,

需要主觀把握一下),其中value,values中的值取值範圍在{-1,+1}之間取捨.

2, 初始化data陣列中的weight=1/n;

3,  for t = 1,...,t;

3.1   使用第t個弱分類器對資料data進行分類,然後得到分類的陣列ht:x -> ;

3.2 統計分類錯誤率:

3.3 計算a的值,並儲存在陣列中,計算公式:

3.4   更新資料data中的權重weight

注:zt是歸一化函式,將 z = sqrt( et(1-et) );

3.5 data中的權重weight更新完成之後,t=t+1,重新將新的權重的data交給下乙個弱分類器進行分類,重複3~3.5;

最後將得到的at  , ht(x),進行累成,

5計算accuray:

以上就是整個adaboost原理的詳細流程,更加形象的流程圖,出自依據prml;

附錄:如果理解了上面流程之後,建議移步去這個地方學習一下,因為對有些公式給予了證明,因為當時證明的時候,

參考的是那兒的,所以直接給出源吧: 

web資料探勘(學習筆記) 觀點挖掘

觀點挖掘 1.主要挖掘非結構化的文字,涉及自然語言處理技術 2.網路已經顯著改變人們表達觀點的方式,使用者生成的內容已經成為 的一種形式 3.主要研究三方面的觀點挖掘的任務 意見分類 基於特徵觀點挖掘和摘要 比較句子和比較關係挖掘 4.意見分類 文件層次上分類,將評價分類到正面,或者負面。當前大多研...

資料探勘學習筆記 3

常見的資料融合方法有 靜態的融合方法,如加權最小平方等 動態的融合方法,如遞迴加權最小平方 卡爾曼濾波 小波變換的分布式濾波等 基於統計的融合方法,如馬爾可夫隨機場 最大似然法 貝葉斯值等 基於資訊理論演算法的方法,如聚集分析 自適應神經網路 表決邏輯 資訊熵 基於模糊集理論的聚類方法等。資料清理的...

資料探勘學習筆記(二)

1 認識資料 1.1 資料物件和屬性型別 資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本 例項 資料點或物件。1.1.1 什麼是屬性 屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。用來描述乙個給定物件的一組屬性稱做屬性向量 或特徵向量 ...