半監督學習是一種介於監督式學習和無監督學習之間的學習正規化,我們都知道,在監督式學習中,樣本的類別標籤都是已知的,學習的目的找到樣本的特徵與類別標籤之間的聯絡。一般來講訓練樣本的數量越多,訓練得到的分類器的分類精度也會越高。但是在很多現實問題當中,一方面由於人工標記樣本的成本十分高昂,導致了有標籤的樣本十分稀少。而另一方面,無標籤的樣本很容易被收集到,其數量往往是有標籤樣本的上百倍。半監督學習(這裡僅針對半監督分類)就是要利用大量的無標籤樣本和少量的有標籤樣本來訓練分類器,解決有標籤樣本不足這個難題。
self-training可能是最早被提出來的半監督學習方法,最早可以追溯到scudder(1965)。self-training相比其它的半監督學習方法的優勢在於簡單以及不需要任何假設。
上面是self-training的演算法流程圖,簡單解釋一下:
1,將初始的有標籤資料集作為初始的訓練集(x
trai
n,yt
rain
)=(x
l,yl
) (xt
rain
,ytr
ain)
=(xl
,yl)
,根據訓練集訓練得到乙個初始分類器ci
ntc in
t。 2,利用ci
ntc in
t對無標籤資料集xu
x
u中的樣本進行分類,選出最有把握的樣本(x
conf
,yco
nf) (xc
onf,
ycon
f)3,從xu
x
u中去掉(x
conf
,yco
nf) (xc
onf,
ycon
f)4,將(x
conf
,yco
nf) (xc
onf,
ycon
f)加入到有標籤資料集中,(x
trai
n,yt
rain
)←(x
l,yl
)∪(x
conf
,yco
nf) (xt
rain
,ytr
ain)
←(xl
,yl)
∪(xc
onf,
ycon
f)5,根據新的訓練集訓練新的分類器,重複步驟2到5直到滿足停止條件(例如所有無標籤樣本都被標記完了)
最後得到的分類器就是最終的分類器。
半監督學習
一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上世紀 80 年代末就已經被一些研究者意識到了 lippman89 d.j.miller 和 h.s.uyar milleru97 認為,半監督學...
半監督學習
最近的一段時間一直在學習半監督學習演算法,目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 在國內的學術界周老師一直是我比較欽佩的人之一。下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d....
半監督學習
目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上...