半監督學習

2021-06-22 22:06:59 字數 3331 閱讀 8929

目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁:下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。。

一般認為,半監督學習的研究始於 b. shahshahani 和 d. landgrebe 的工作[shahshahanil94],但未標記示例的價值實際上早在上世紀 80 年代末就已經被一些研究者意識到了[lippman89]。d.j.miller 和 h.s. uyar [milleru97]認為,半監督學習的研究起步相對較晚,可能是因為在當時的主流機器學習技術(例如前饋神經網路)中考慮未標記示例相對比較困難。隨著統計學習技術的不斷發展,以及利用未標記示例這一需求的日漸強烈,半監督學習才在近年來逐漸成為乙個研究熱點。半監督學習的基本設定是給定乙個來自某未知分布的有標記示例集l=以及乙個未標記示例集u = ,期望學得函式f: x→y可以準確地對示例x **其標記y。這裡xi, xj』 ∈x 均為d維向量,yi∈y為示例xi的標記,|l|和|u|分別為l和u的大小,即它們所包含的示例數。在介紹具體的半監督學習技術之前,有必要先**一下為什麼可以利用未標記示例來改善學習效能。關於這個問題,有不少研究者給出了解釋。例如,d.j. miller 和 h.s. uyar [milleru97] 從資料分布估計的角度給出了乙個直觀的分析。他們假設所有資料服從於某個由 l 個高斯分布混合而成的分布,即

其中

其中:

這樣,學習目標就變成了利用訓練例來估計p(ci = k | mj = j, xi)和p(mi = j | x)。這兩項中的第一項與類別標記有關,而第二項並不依賴於示例的標記,因此,如果有大量的未標記示例可用,則意味著能夠用於估計第二項的示例數顯著增多,這會使得第二項的估計變得更加準確,從而導致式 2 更加準確,也就是說,分類器的泛化能力得以提高。此後,t. zhang和f. j. oles [zhango00] 進一步分析了未標記示例在半監督學習中的價值,並指出如果乙個引數化模型如果能夠分解成p(x, y | θ) = p(y| x, θ) p(x | θ) 的形式,那麼未標記示例的價值就體現在它們能夠幫助更好地估計模型引數從而導致模型效能的提高。

實際上,只要能夠合理建立未標記示例分布和學習目標之間的聯絡,就可以利用未標記示例來輔助提高學習效能。在[shahshahanil94][milleru97]中,這一聯絡是通過對生成式模型(generativemodel)引數的估計來體現的,但在更一般的情況下就需要在某些假設的基礎上來建立未標記示例和目標之間的聯絡。目前,在半監督學習中有兩個常用的基本假設,即聚類假設(cluster assumption)和流形假設(manifold assumption)。

聚類假設是指處在相同聚類(cluster)中的示例有較大的可能擁有相同的標記。根據該假設,決策邊界就應該盡量通過資料較為稀疏的地方,從而避免把稠密的聚類中的資料點分到決策邊界兩側。在這一假設下,大量未標記示例的作用就是幫助探明示例空間中資料分布的稠密和稀疏區域,從而指導學習演算法對利用有標記示例學習到的決策邊界進行調整,使其盡量通過資料分布的稀疏區域。聚類假設簡單、直觀,常以不同的方式直接用於各種半監督學習演算法的設計中。例如, joachims[joachims99] 提出了tsvm演算法 3 ,在訓練過程中,該演算法不斷修改svm的劃分超平面並交換超平面兩側某些未標記示例的可能標記,使得svm在所有訓練資料(包括有標記和未標記示例)上最大化間隔(margin),從而得到乙個既通過資料相對稀疏的區域又盡可能正確劃分有標記示例的超平面;n. d. lawrence和 m. i. jordan [lawrencej05] 通過修改高斯過程(gaussian process)中的噪音模型來進行半監督學習,他們在正、反兩類之間引入了「零類」,並強制要求所有的未標記示例都不能被分為零類,從而迫使學習到的分類邊界避開資料稠密區域; grandvalet和y. bengio [grandvaletb05] 通過使用最小化熵作為正則化項來進行半監督學習,由於熵僅與模型在未標記示例上的輸出有關,因此,最小化熵的直接結果就是降低模型的不確定性,迫使決策邊界通過資料稀疏區域。

流形假設是指處於乙個很小的區域性鄰域內的示例具有相似的性質,因此,其標記也應該相似。這一假設反映了決策函式的區域性平滑性。和聚類假設著眼整體特性不同,流形假設主要考慮模型的區域性特性。在該假設下,大量未標記示例的作用就是讓資料空間變得更加稠密,從而有助於更加準確地刻畫區域性區域的特性,使得決策函式能夠更好地進行資料擬合。流形假設也可以容易地直接用於半監督學習演算法的設計中。例如,j. zhu 等人 [zhugl03] 使用高斯隨機場以及諧波函式來進行半監督學習,他們首先基於訓練例建立乙個圖,圖中每個結點就是乙個(有標記或未標記)示例,然後求解根據流形假設定義的能量函式的最優值,從而獲得對未標記示例的最優標記;d. zhou 等人 [zhoublws04] 在根據示例相似性建立圖之後,讓示例的標記資訊不斷向圖中的鄰近示例傳播,直到達到全域性穩定狀態。值得注意的是,一般情形下,流形假設和聚類假設是一致的。由於聚類通常比較稠密,滿足流形假設的模型能夠在資料稠密的聚類中得出相似的輸出。然而,由於流形假設強調的是相似示例具有相似的輸出而不是完全相同的標記,因此流行假設比聚類假設更為一般,這使其在聚類假設難以成立的半監督回歸中仍然有效[zhoul05b][zhoul07]。根據半監督學習演算法的工作方式,可以大致將現有的很多半監督學習演算法分為三大類。第一類

演算法以生成式模型為分類器,將未標記示例屬於每個類別的概率視為一組缺失引數,然後採用 em演算法來進行標記估計和模型引數估計,其代表包括[shahshahanil94][milleru97] [nigammtm00]等。此類演算法可以看成是在少量有標記示例周圍進行聚類,是早期直接採用聚類假設的做法。第二類演算法 是 基 於 圖 正 則 化 框 架 的 半 監 督 學 習 算 法 , 其 代 表 包 括 [blumc01][zhugl03][belkinn04][zhoublws04][belkinns05]等。此類演算法直接或間接地利用了流形假設,它們通常先根據訓練例及某種相似度度量建立乙個圖,圖中結點對應了(有標記或未標記)示例,邊為示例間的相似度,然後,定義所需優化的目標函式並使用決策函式在圖上的光滑性作為正則化項來求取最優模型引數。第三類演算法是協同訓練(co-training)演算法。此類演算法隱含地利用了聚類假設或流形假設,它們使用兩個或多個學習器,在學習過程中,這些學習器挑選若干個置信度高的未標記示例進行相互標記,

從而使得模型得以更新。在 a. blum 和 t. mitchell [blumm98] 提出最早的協同訓練演算法後,很多研究者對其進行了研究並取得了很多進展,使得協同訓練成為半監督學習中最重要的風範(paradigm)之一,而不再只是乙個演算法。本章接下來的幾節就將對協同訓練進行進一步的介紹。

下個帖子將是半監督學習演算法中比較具有代表性的算發(tri-training:

半監督學習

一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上世紀 80 年代末就已經被一些研究者意識到了 lippman89 d.j.miller 和 h.s.uyar milleru97 認為,半監督學...

半監督學習

最近的一段時間一直在學習半監督學習演算法,目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 在國內的學術界周老師一直是我比較欽佩的人之一。下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d....

半監督學習

半監督學習 讓學習器不依賴外界互動 自動利用未標記樣本提公升學習效能,就是半監督學習。它的出現也是符合實際生活的需求,比如 網際網路中進行網頁推薦,請使用者標記出感興趣的網頁,但實際使用者標記的很少,所以 有標記資料少,無標記資料多 再比如醫學影像分析,可以從醫院獲得大量醫學影像,但是全部標記是不現...