NLP資料增強學習筆記

2022-09-10 20:15:23 字數 1621 閱讀 8952

眾所周知,深度學習中的神經網路模型都是依靠資料驅動,優質的資料能夠顯著提公升模型的執行效果。

通常來說,有監督學習的模型效能會好於無監督學習的模型。但是,有監督學習的模型需要大量的標註資料,而人工標註資料需要花費大量的人力物力,所以資料增強是一種有效的解決方案。

1.傳統方法

2.深度學習方法

① 半監督方法

半監督學習方法主要目的是應用到沒有標籤的資料中,較少對大規模資料集的依賴。提出了一種mixmatch演算法,它的工作方式是通過 mixup 猜測資料擴增方法產生的無標籤樣本的低熵標籤,並把無標籤資料和有標籤資料混合起來。

② 無監督資料增強uda

eda適用於小規模資料集的資料增強,對於大資料集來說就望而卻步了。unsupervised data augmentation(uda)無監督資料擴增方法被提出,成為了大資料集的乙個解決方案。

mixmatch 演算法除了使用普通的資料增廣,還有乙個秘訣是 mixup 增廣術。而 uda 的成功,得益於對特定任務使用特定目標的資料增強演算法。與常規雜訊比如高斯雜訊、dropout 雜訊相比,針對不同任務使用不同資料增強方法能夠產生更有效的資料。這種方法能夠產生有效、真實的雜訊,且噪音多樣化。另外以目標和效能為導向的資料增強策略可以學習如何在原始標記集中找出丟失的或最想要的訓練訊號。(比如影象資料以顏色為目標進行資料增強)

圖中展示了uda訓練時的結構。為了使用標記和未標記的所有資料,對有標籤的資料訓練時加入了cross entropy loss 函式。對未標記資料,與mixmatch使用l2 loss 不同,uda對增廣後未標記的資料**結果使用kl散度。targeted data augmentation 特定目標的資料增強 則包括了back translation回譯、autoaugment(影象)、tfidf word replacement。其中回譯是從英文轉法文再譯回英文,idf是從dbpedia語料中獲取。

另外,uda優秀的另乙個重要的突破是採用了training signal annealing(tsa)方法在訓練時逐步釋放訓練訊號。

當收集了少量的標註的資料和大量未標記的資料時,可能會面臨標記資料和未標記資料相差很大的情況。比如標記的資料都和保險相關,但未標記的資料都是熱點新聞。因為需要採用大量的未標記資料進行訓練,所需的模型會偏大,而大模型又會輕鬆的在有限的有監督資料上過擬合,這時tsa就要逐步的釋放有監督資料的訓練訊號了。作者對每個training step 都設了乙個閾值ηt,且小於等於1,當乙個標籤例子的正確類別p的概率高於閾值ηt時,模型從損失函式中刪除這個例子,只訓練這個minibatch下其他標記的例子。

上圖展示了tsa的三種方式,分別適用於不同的資料。exp模式更適合於問題相對容易或標註量較少的情況。因為監督訊號主要在訓練結束時釋放,且可以防止模型快速過擬合。同理,log模式適合大資料量的情況,訓練過程中不太容易過擬合。

實驗結果表明,這種無監督方法創造的資料在多個任務上都有很好的表現。在半監督學習測試中,uda擊敗了包括mixmatch的所有方法,錯誤率也降低了30%。

③ gan生成對抗網路

待續。。

NLP資料增強方法

以下是一些針對文字的資料的增強方法 隨機drop和shuffle 資料增強主要採取兩種方法,一種是 drop,對於標題和描述中的字或詞,隨機的進行刪除,用空格代替。另一種是 shuffle,即打亂詞序。對於 如何評價 2017 知乎看山杯機器學習比賽?這個問題,使用 drop 對詞層面進行處理之後,...

NLP中的資料增強

相關方法合集見 較為簡單的資料增強的方法見 中所使用的方法如下 1.同義詞替換 sr synonyms replace 不考慮stopwords,在句子中隨機抽取n個詞,然後從同義詞詞典中隨機抽取同義詞,並進行替換。同義詞其詞向量可能也更加接近,在使用詞向量的模型中不一定有用 2.隨機插入 ri r...

NLP學習筆記 nlp入門介紹

為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...