相關方法合集見:
較為簡單的資料增強的方法見**:
**中所使用的方法如下:
1. 同義詞替換(sr: synonyms replace):不考慮stopwords,在句子中隨機抽取n個詞,然後從同義詞詞典中隨機抽取同義詞,並進行替換。(同義詞其詞向量可能也更加接近,在使用詞向量的模型中不一定有用)
2. 隨機插入(ri: randomly insert):不考慮stopwords,隨機抽取乙個詞,然後在該詞的同義詞集合中隨機選擇乙個,插入原句子中的隨機位置。該過程可以重複n次。
3. 隨機交換(rs: randomly swap):句子中,隨機選擇兩個詞,位置交換。該過程可以重複n次。
4. 隨機刪除(rd: randomly delete):句子中的每個詞,以概率p隨機刪除。(類似於神經網路中的dropout)
第一列是訓練集的大小,第三列是每個句子生成的新句子數,第二列是每一條語料中改動的詞所佔的比例。
相關實現見:
還有些如打亂句子的順序,隨機進行mask,相比於直接複製能夠加入一些雜訊,以防止過擬合。
還有些通過神經網路進行資料增強的方法,但是代價相對較高,同時效果也不一定會好。
相關討論見:
不同的資料增強方式不能確切的說誰強誰弱,對於nlp任務而言,一切從資料出發,需要結合具體任務進行檢驗。
NLP資料增強方法
以下是一些針對文字的資料的增強方法 隨機drop和shuffle 資料增強主要採取兩種方法,一種是 drop,對於標題和描述中的字或詞,隨機的進行刪除,用空格代替。另一種是 shuffle,即打亂詞序。對於 如何評價 2017 知乎看山杯機器學習比賽?這個問題,使用 drop 對詞層面進行處理之後,...
NLP資料增強學習筆記
眾所周知,深度學習中的神經網路模型都是依靠資料驅動,優質的資料能夠顯著提公升模型的執行效果。通常來說,有監督學習的模型效能會好於無監督學習的模型。但是,有監督學習的模型需要大量的標註資料,而人工標註資料需要花費大量的人力物力,所以資料增強是一種有效的解決方案。1.傳統方法 2.深度學習方法 半監督方...
NLP中資料增強的綜述,快速的生成大量的訓練資料
編譯 ronghuaiyang 正文共 4345 字 21 圖 深度學習視覺領域的增強方法可以很大程度上提高模型的表現,並減少資料的依賴,而nlp上做資料增強不像在影象上那麼方便,但還是有一些方法的。與計算機視覺中使用影象進行資料增強不同,nlp中文字資料增強是非常罕見的。這是因為影象的一些簡單操作...