主動學習與半監督學習

2021-07-01 19:39:40 字數 1571 閱讀 7987

機器學習--監督,非監督,半監督學習

antmon

**主動學習與半監督學習active-learning and semi-supervised learning

在機器學習(machine learning

)領域,監督學習(supervised learning

)、非監督學習(unsupervised learning

)以及半監督學習(semi-supervisedlearning

)是三類研究比較多,應用比較廣的學習技術,wiki

上對這三種學習的簡單描述如下:

以上表述是我直接翻譯過來的,因為都是一句話,所以說得不是很清楚,下面我用乙個例子來具體解釋一下。

其實很多機器學習都是在解決類別歸屬的問題,即給定一些資料,判斷每條資料屬於哪些類,或者和其他哪些資料屬於同一類等等。這樣,如果我們上來就對這一堆資料進行某種劃分(聚類),通過資料內在的一些屬性和聯絡,將資料自動整理為某幾類,這就屬於非監督學習。如果我們一開始就知道了這些資料報含的類別,並且有一部分資料(訓練資料)已經標上了類標,我們通過對這些已經標好類標的資料進行歸納總結,得出乙個「資料-->類別」的對映函式,來對剩餘的資料進行分類,這就屬於監督學習。而半監督學習指的是在訓練資料十分稀少的情況下,通過利用一些沒有類標的資料,提高學習準確率的方法。

鋪墊了那麼多,其實我想說的是,在wiki上對於半監督學習的解釋是有一點點歧義的,這跟下面要介紹的主動學習有關。

主動學習(activelearning

),指的是這樣一種學習方法:

有的時候,有類標的資料比較稀少而沒有類標的資料是相當豐富的,但是對資料進行人工標註又非常昂貴,這時候,學習演算法可以主動地提出一些標註請求,將一些經過篩選的資料提交給專家進行標註。

這個篩選過程也就是主動學習主要研究的地方了,怎麼樣篩選資料才能使得請求標註的次數盡量少而最終的結果又盡量好。

主動學習的過程大致是這樣的,有乙個已經標好類標的資料集k(初始時可能為空),和還沒有標記的資料集u,通過k集合的資訊,找出乙個u的子集c,提出標註請求,待專家將資料集c標註完成後加入到k集合中,進行下一次迭代。

按wiki上所描述的看,主動學習也屬於半監督學習的範疇了,但實際上是不一樣的,半監督學習和直推學習(transductivelearning

)以及主動學習,都屬於利用未標記資料的學習技術,但基本思想還是有區別的。

如上所述,主動學習的「主動」,指的是主動提出標註請求,也就是說,還是需要乙個外在的能夠對其請求進行標註的實體(通常就是相關領域人員),即主動學習是互動進行的。

而半監督學習,特指的是學習演算法不需要人工的干預,基於自身對未標記資料加以利用。

至於直推學習,它與半監督學習一樣不需要人工干預,不同的是,直推學習假設未標記的資料就是最終要用來測試的資料,學習的目的就是在這些資料上取得最佳泛化能力。相對應的,半監督學習在學習時並不知道最終的測試用例是什麼。

也就是說,直推學習其實類似於半監督學習的乙個子問題,或者說是乙個特殊化的半監督學習,所以也有人將其歸為半監督學習。

而主動學習和半監督學習,其基本思想上就不一樣了,所以還是要加以區分的,如果wiki上對半監督學習的解釋能特別強調一下「是在不需要人工干預的條件下由演算法自行完成對無標記資料的利用」,問題就會更清楚一些了。

監督學習 非監督學習 半監督學習(主動學習)

統計學習通常包括監督學習 非監督學習 半監督學習以及強化學習,在機器學習的領域中前三種研究的比較多的,也是運用的比較廣泛的技術。監督學習的任務是學習乙個模型,使模型對給定的任意的乙個輸入,對其都可以對映出乙個 結果。這裡模型就相當於我們數學中乙個函式,輸入就相當於我們數學中的x,而 的結果就相當於數...

有監督學習 無監督學習與半監督學習

這個問題可以回答得很簡單 是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。但根據知乎慣例,答案還是要繼續擴充套件的。首先看什麼是學習 learning 乙個成語就可概括 舉一反三。此處以高考為例,高考的題目在上考場前我們未必...

監督學習,無監督學習和半監督學習

監督學習 supervised learning 無監督學習 unsupervised learning 半監督學習 semi supervised learning 2 概念 監督學習 用一部分已知分類 有標記的樣本來訓練機器後,讓它用學到的特徵,對沒有還分類 無標記的樣本進行分類 貼標籤。一句話...