超強文字半監督方法MixText

2021-10-19 13:00:56 字數 2705 閱讀 5320

低資源少樣本nlp問題是jayjay比較關注的乙個方向,說白了就是乙個問題:標註樣本少怎麼辦?而半監督學習就是解決這一問題的乙個重要手段。

半監督學習在cv領域早已經「大顯身手」,而在nlp領域的應用卻不太多。此外,隨著bert等預訓練模型的強大,本質上也緩解了少樣本問題。而bert如果能和其他機器學習方法(如:半監督學習 或 主動學習 等)結合起來,或許少樣本問題的增益會更加明顯。

本文jayjay介紹一篇來自acl20的*****《mixtext: linguistically-informed interpolation of hidden space for semi-supervised text classification》。

mixtext主要針對的是半監督文字分類場景,其主要的亮點有:

提出一種全新文字增強方式——tmix,在隱式空間插值,生成全新樣本。

對未標註樣本進行低熵**,並與標註樣本混合進行tmix。mixtext可以挖掘句子之間的隱式關係,並在學習標註樣本的同時利用無標註樣本的資訊。

超越預訓練模型和其他半監督方法, 在少樣本場景下表現卓越!

資料為王,資料是深度學習時代的「煤油電」。雖然標註資料獲取昂貴,但半監督學習可以同時標註資料和未標註資料,而未標註資料通常很容易得到。

總的看,半監督文字分類可分為以下4種:

也許你會問,一致性訓練是啥?我們這裡補充介紹2種半監督深度學習利用未標註資料的訓練方式:

1、熵最小化:根據半監督學習的cluster假設,決策邊界應該盡可能地通過資料較為稀疏的地方(低密度區),以能夠避免把密集的樣本資料點分到決策邊界的兩側。也就是模型通過對未標記資料**後要作出低熵**,即熵最小化:

2、一致性訓練:對於未標記資料,希望模型在其輸入受到擾動時產生相同的輸出分布。即:

上述介紹的4種半監督文字分類方式有乙個不足之處:就是分開利用標註資料和未標註資料,沒有在二者之間直接建立聯絡。大多數半監督模型仍然會在小標註樣本上過擬合。

mixup是影象領域常見的一種資料增強方式,其方式非常簡單,如上圖所示:可直接在畫素級別上進行插值,公式如下(其中為影象輸入,為標籤one-hot向量):

由於文字的輸入是離散的,因此不能直接輸入層直接進行mixup。所以作者提出了一種在隱空間進行插值的方法——tmix,如下圖所示。

tmix理解起來也是相當簡單,其在bert編碼層進行隱空間插值,相比於直接在輸入層進行mixup,tmix的資料增強的空間範圍更加廣闊。

需要特別指出的是,從beta分布進行取樣得到:

mixtext的計算流程如上圖所示,其共分為三步:

第1步:對未標註資料進行增強:採用未標註資料採取回譯方式進行次增強生成;

第2步:對未標註資料進行標籤**:將原始未標註資料和增強後的未標註資料一同餵入到當前模型中,通過平均加權的方式對未標註資料進行**:

由於**出的「偽標籤」分布相對平坦,**也採取了sharpen操作:使得「偽」標籤熵更低,即貓狗分類中,要麼百分之九十多是貓,要麼百分之九十多是狗。sharpen操作在cv中也應用很廣泛啦:

第3步:對標註資料和未標註資料一同進行tmix:將所有資料(有標註,原始未標註,增強後的未標註)混合在一起生成,然後隨機選擇2個樣本和進行tmix,然後通過kl散度計算損失:

值得注意的是:在cv領域**mixmatch[1]中,數值大部分落在0或1附近,因此其主要利用來自而不是。

**最後在4個資料集上,將mixtext與bert和其他半監督方法進行了對比(如上圖),可以看出:

此外,作者還對比在僅有10條標註資料時、利用不同的未標註資料量時mixtext的表現,如上圖所示:隨著未標註資料的增加,指標也不斷提公升!

本文介紹的mixtext展示了最強的半監督分類效能!其不僅僅合併了未標記資料,而且通過tmix建立了標註資料和未標註資料之間的隱式關係,同時對未標註資料也有較好的標籤**能力。

在小樣本場景下,通過mixtext充分利用大量的未標註資料,可以帶來顯著的指標增益!此外,一般情況下,半監督學習只會增加訓練時間,而不會增加推斷時間哦

因此,nlper:不要浪費你的未標註資料,趕緊利用、操練起來吧!

NLP 監督 半監督 無監督學習

概念 有監督學習 訓練資料既有特徵 feature 又有標籤 label 通過訓練,讓機器可以自己找到特徵和標籤之間的聯絡,在面對只有特徵沒有標籤的資料時,可以判斷出標籤。無監督學習 unsupervised learning 訓練樣本的標記資訊未知,目標是通過對無標記訓練樣本的學習來揭示資料的內在...

半監督學習

一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上世紀 80 年代末就已經被一些研究者意識到了 lippman89 d.j.miller 和 h.s.uyar milleru97 認為,半監督學...

半監督學習

最近的一段時間一直在學習半監督學習演算法,目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 在國內的學術界周老師一直是我比較欽佩的人之一。下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d....