資料增廣是在任務資料量稀缺時非常有用的方法。文章《conditional bert contextual augmentation》通過改變bert的輸入,在原始bert模型上fine-tune,將預訓練語言模型引入資料增廣任務中,並取得了很好的效果。
資料增廣是深度學習中常用的技巧之一,主要用於增加訓練資料集,讓資料集盡可能的多樣化,使得訓練的模型具有更強的泛化能力,提公升模型在任務上效果。
現有的文字資料增廣的方法在特定領域和通用領域不同。在特定領域通常通過人工設定的規則來增廣資料。在通用領域通常通過基於替換的方式來增廣資料。這些方法不靈活,且不能保證增廣的資料的質量。
本文通過改變bert的輸入,將句子的標籤加入到輸入中,fine-tune bert模型,為文字分類任務做資料增廣,在多個文字分類任務中達到目前最好效果。
作者在6中分類資料集上測試了條件bert資料增廣的效果,所用資料集如下所示:
conditional bert
conditional bert的結構和bert的結構是一樣的,只是在輸入和訓練方式不同。
bert的輸入是詞嵌入,段嵌入和位置嵌入三者的加和。但是段嵌入與句子的正在的標註label沒有聯絡。所以mlm**的詞並不一定與原詞是相同的label。
例如:this actor is good. 當把good 遮掉,**出bad或boring等消極的詞。這種情況對資料增廣的效果是非常不利的。
conditional masked language model
通過將bert的段嵌入替換為label 嵌入,把遮掉詞的上下文和label都考慮進去,來**該詞。在有標籤資料資料上通過conditional mlm任務來訓練conditional bert。
作者分別做了基於cnn的分類器和基於rnn的分類器, 在6個資料集上,做資料增廣,再做文字分類的實驗。比較直接用bert,conditional bert和之前的方法的效果,發現conditional bert做資料增廣的效果最好,實驗結果如下:
並且作者通過實驗發現只需要經過少數幾個epochs的fine-tune, conditional bert的效果就超過了bert,以下是conditional bert在不同資料集上超過bert所需要的epochs的實驗結果
探索在非均衡資料集上使用預訓練語言模型做資料增廣
將該方法應用到篇章以及文件級的資料增廣中
掃碼識別關注,獲取更多**解讀
資料增廣(Data Augmentation)方法
方法 映象 flip 旋轉 rotation 縮放 scale 裁剪 crop 平移 translation 高斯雜訊 gaussion noise 影象亮度 飽和度和對比度變化 pca jittering lable shuffle sda生成對抗網路 generative adversi net...
資料增廣筆記
深度學習資料增強筆記 首先,網路上已經有了各種的常見增廣方法,如旋轉,平移色彩抖動等,需要的麻煩見下面的部落格。本文的寫作目的是為了提醒自己除了上述的常見增廣方法外,還有一些高階的增強方法,如利用神經風格遷移或者gan來生成更多的,以及影象合成。影象合成有時候能給我們提供大量的資料,但是其也有一些限...
資料庫條件語句
update machinepath select machinepath pcpath,filename from table1 where node2 aaa update table1 set machinepath case when filename like 語文 then 語文 nn學...