接觸機器學習最早就是這兩個分類器開始的,今天想起了這兩個概念,就腦海裡滾動公式。想著它們做分類時的樣子,想起寫點對他們的直觀認識,可能有很多不嚴謹的地方,看客可不要太較真啦。
說起adaboost,想像乙個包含所有資料點的集合,比如這些點就是每天在地鐵站看到的所有女生,這個點裡儲存了女生x的身高、體重、**顏色、髮質、b、w之類不拉不拉不拉的一堆資料。現在問題就來了:什麼樣的算是美女啊??!!我跟很多同事同學去**這個問題,得到許多不一樣的回答。a君認為個頭要在th1以上、b要在th2以上、髮質要在th3以上;b君認為個頭不是關鍵,他覺得只要thmin《體重/身高
後來大家吃飯的時候終於達成了共識:我們讓每個人說出乙個特別不能容忍的標準,比如如果她的體重身高比觸犯了b君的最後底線(這個底線比之前的thmin或者thmax寬泛多了),他在b君那裡是無論如何都不能稱為美女了(即使是白富也不可以)。這樣他們每個人的標準都寬鬆了許多許多(弱分類器),然後我們讓a君先來判斷,他認為是美女的交給b君,b-->c-->d-->……,最後得到的這些所謂美女雖然和每個人的標準都有一定差距,但是大家都覺得這樣的結果還說得過去,不至於他們當中的某個人互掐起來。而且這樣判斷起來速度還蠻快的。
我問d君你看這個結果何如?d君說這和機器學習中的adaboost有點像,(⊙o⊙)…
後來單位來了個e君,e君聽說了我們的討論,給了我乙個工具,說把這個交給他們每個人,就能得到每個人對美女的劃分了。這個工具還是蠻神奇的!a君拿到它以後,把他的各種要求輸入進去了,無非就是各個th啊,這些在資料點中都有儲存,直接劃定一條線就搞定了,so easy!a君利用此工具迅速把全公司上下篩選了一遍,真是無良啊。b君利用這個工具時,要用兩條直線,依然是so easy!根據c君女友的各個特徵此工具畫出了多條直線幾乎逼近乙個曲面總算描繪出了c君的美女概念,almost easy!d君可是給這個工具出了個難題:error c2065: "氣質" undeclared identifier !什麼是氣質啊。d君以為此工具要崩潰了可就錯了。他還有個叫做kernel的利器,從現有的身高、體重等一系列資訊中提取出了這些女生所從事的職業、教育背景、家庭環境不拉不拉一大堆比之前還要多得多的資料,然後它在這些資料裡畫出乙個區分平面得到了d君的美女概念標準。
這下d君大為驚嘆,奔走相告且大呼曰:真乃驗證美女之神器也!於是d君為它賜名:super validation machine!
文字分類學習(六) AdaBoost和SVM
直接從特徵提取,跳到了boostsvm,是因為自己一直在寫程式,分析垃圾文字,和思考文字分類用於識別垃圾文字的短處。自己學習文字分類就是為了識別垃圾文字。中間的部落格待自己研究透徹後再補上吧。因為獲取垃圾文字的時候,發現垃圾文字不是簡單的垃圾文字,它們具有多個特性 1.種類繁多,難有共同的特徵。涵蓋...
我對adaboost的一點理解
我理解的adaboost演算法 由程式反觀演算法 容易在介紹adaboost 演算法的文章中找到其演算法流程 我的疑問 1 第三步如何根據訓練資料訓練弱分類器?弱分類器的個數由什麼定,特徵維 數?2 第四步那個公式什麼意思?3 第七步如何歸一化?4 第八步怎麼理解?很多文章是這樣來介紹adaboos...
adaboost的理解和複習
本文主要是對adaboost的複習,把adaboost知識結構化,溫故而知新 1 第一輪訓練,初始化樣本權重為 1 n frac n1 2 通過第一輪樣本權重,對第乙個基學習器進行訓練,獲得第乙個基學習器和第乙個基學習器的 錯誤率 t epsilon t t 3 通過第乙個基學習器的 t epsil...