半監督學習導論第2章 半監督學習概述

2021-09-16 19:22:47 字數 1256 閱讀 5639

半監督學習是監督學習和無監督學習的中間地帶,可以看成是監督學習或者無監督學習的擴充套件,具體來說,可以分成下面幾大類:

還有其他一些半監督學習比如:半監督回歸,半監督降維。本書只關注半監督分類問題

半監督學習的研究有兩個價值:

半監督學習的乙個假設:無標籤資料和帶標籤資料同分布。通過無標籤資料的分布,可以學習到乙個更準確的分類邊界。(這個分析似乎不太適合deeplearning時代,deeplearning中特徵都是對映得到的,如果分類器較差,對映得到的特徵本身的分布可能並不具備某些規律)

半監督分類問題可以分成兩大類:inductive semi-supervised learning 和 transductive learning。

使用無標籤資料來輔助提公升分類器的效能看起來似乎是合理的。但是通常情況下針對某乙個特定的任務盲目地選擇一種半監督演算法並不會帶來效能上的提公升。

self-training 模型演算法流程圖:

輸入:帶標籤資料 l=(

xi,y

i)l=l=

(xi​

,yi​

) ,無標籤資料 u=(

xj)u=

u=(xj​

)迴圈:

self-training 模型的核心思想是通過模型自己**的標籤作為真實標籤,把無標籤資料變成偽標籤資料,然後使用偽標籤資料+帶標籤資料共同訓練分類器。有兩種迭代方式:

self-training 假設:模型打出的標籤,趨於正確(至少對可信度高的樣本,趨於正確)。

self-training 模型的優點和缺點:

下面是乙個 self-training 模型的例子:最初有兩個帶標籤樣本(紅色和藍色表示兩類樣本,綠色表示無標籤樣本),使用knn作為分類器,每次把乙個樣本(最可靠的樣本)加入帶標籤資料集中,迭代過程中標籤傳播如下:

self-training 演算法容易受到雜訊樣本的干擾,下面的例子中,由於乙個離群點的存在,偽標籤的生成發生了很大的變化。

半監督學習

一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上世紀 80 年代末就已經被一些研究者意識到了 lippman89 d.j.miller 和 h.s.uyar milleru97 認為,半監督學...

半監督學習

最近的一段時間一直在學習半監督學習演算法,目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 在國內的學術界周老師一直是我比較欽佩的人之一。下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d....

半監督學習

目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上...