最近在看一些整合學習方面的知識,其中南京大學的周志華教授寫的幾篇關於整合學習綜述性的文章還不錯。看了下對整合學習有了乙個初步的了解,如下:
整合學習是機器學習中乙個非常重要且熱門的分支,是用多個弱分類器構成乙個強分類器,其哲學思想是「三個臭皮匠賽過諸葛亮」。一般的弱分類器可以由決策樹,神經網路,貝葉斯分類器,k-近鄰等構成。已經有學者理論上證明了整合學習的思想是可以提高分類器的效能的,比如說統計上的原因,計算上的原因以及表示上的原因。
一、整合學習中主要的3個演算法為:boosting,bagging,stacking.
其中boosting的弱分類器形成是同一種機器學習演算法,只是其資料抽取時的權值在不斷更新,每次都是提高前一次分錯了的資料集的權值,最後得到t個弱分類器,且分類器的權值也跟其中間結果的資料有關。
bagging演算法也是用的同一種弱分類器,其資料的**是用bootstrap演算法得到的。
stacking演算法分為2層,第一層是用不同的演算法形成t個弱分類器,同時產生乙個與原資料集大小相同的新資料集,利用這個新資料集和乙個新演算法構成第二層的分類器。
二、整合學習有效的前提:1.每個弱分類器的錯誤率不能高於0.5。2.弱分類器之間的效能要有較大的差別,否則整合效果不是很好。
三、整合學習按照基本分類器之間的關係可以分為異態整合學習和同態整合學習。異態整合學習是指弱分類器之間本身不同,而同態整合學習是指弱分類器之間本身相同只是
引數不同。
四、怎樣形成不同的基本分類器呢?主要從以下5個方面得到。
基本分類器本身的種類,即其構成演算法不同。
對資料進行處理不同,比如說boosting,bagging,stacking, cross-validation,hold-out test.等。
對輸入特徵進行處理和選擇
對輸出結果進行處理,比如說有的學者提出的糾錯碼
引入隨機擾動
五、基本分類器之間的整合方式,一般有簡單投票,貝葉斯投票,基於d-s證據理論的整合,基於不同的特徵子集的整合。
六、基礎學習效能的分析方法主要有bias-variance分析法
七、目前有的一般性實驗結論:
boosting方法的整合分類器效果明顯優於bagging,但是在某些資料集boosting演算法的效果還不如單個分類器的。
使用隨機化的人工神經網路初始權值來進行整合的方法往往能夠取得和bagging同樣好的效果。
boosting演算法一定程度上依賴而資料集,而bagging對資料集的依賴沒有那麼明顯。
boosting演算法不僅能夠減少偏差還能減少方差,但bagging演算法智慧型減少方差,對偏差的減少作用不大。
八、未來整合學習演算法的研究方向:
整合學習演算法的可理解性要提高。
怎樣構造有差異的基礎分類器。
與svm的結合。
提高boosting的魯棒性,即降低其對雜訊的敏感。
完善出整合學習的一般理論框架。
zhou, z.-h. (2009). "ensemble." encyclopedia of database systems,(berlin: springer): 988-991.
zhou, z.-h. (2009). "boosting."encyclopedia of database systems,(berlin: springer): 260-263.
zhou., z.-h. (2009). "ensemble learning." encyclopedia of biometrics(berlin: springer): 270-273.
廖英毅 "整合學習綜述." soft.cs.tsinghua.edu.cn/~keltin/docs/ensemble.pdf.
Controller一些知識點1 初步見解
寫一下關於controller層的寫法解釋 首先關於當中的一些註解字的解釋進行分析闡明 responsebody 表示該方法的返回結果直接寫入httpresponsebody中 restcontroller 此註解主要是用來標註控制層的元件主要是包括 controller和 responsebody...
一些知識點的初步理解 2 流形學習,ing
一.流形學習的英文名為manifold learning。其主要思想是把乙個高維的資料非線性對映到低維,該低維資料能夠反映高維資料的本質,當然有乙個前提假設就是高維觀察資料存在流形結構,其優點是非引數,非線性,求解過程簡單。二.流形學習的可行性是因為 1.從認知心理學的角度來講心理學家認為人的認知過...
一些知識點的初步理解 7 隨機森林,ing
一些知識點的初步理解 7 隨機森林,ing.在機器學習中,隨機森林由許多的決策樹組成,因為這些決策樹的形成採用了隨機的方法,因此也叫做隨機決策樹。隨機森林中的樹之間是沒有關聯的。當測試資料進入隨機森林時,其實就是讓每一顆決策樹進行分類,最後取所有決策樹中分類結果最多的那類為最終的結果。因此隨機森林是...