基於bert預訓練模型的比較

2021-10-06 17:07:42 字數 1269 閱讀 6194

基於bert預訓練模型的比較

electra

roberta

bert-wwm

albert

xlnet

預訓練任務替換詞檢驗

遮掩詞**

與bert相同

遮掩詞** + sop

permutation lm

pretraining-model生成器+判別器的模式,生成器與判別器的網路結構均為transform中的encoder,模型拓展主要包括:1)生成器與判別器的詞嵌入層實現引數共享、2)生成器的網路規模為判別器的1/4 - 1/2、3)生成器與判別器的損失聯合訓練

與bert網路結構一樣,但 1)在更多訓練資料上以更大的batch-size訓練更長時間、2)移除nsp任務、3)更長的序列、4)動態遮掩

採用全詞遮掩策略的bert

與bert相似,但1)將embedding層的引數分解成兩個小矩陣、2)跨層引數共享

transform-xl + 雙流自注意力

pretrain-datasbert-base預訓練語料、xlnet預訓練語料

更大規模的資料集

中文維基百科

bert-base預訓練語料、xlnet預訓練語料

相對於bert,新增了額外的資料集

fine-tune凍結生成器引數,僅對判別器引數進行調整

與bert相同

與bert相同

與bert相同

與bert相似,但僅更新content stream

優點根據實驗結果,採用替換詞檢驗任務會加速預訓練過程及提高下游任務的精度;其次解決了mask在預訓練階段與fine-tune階段的不一致問題(根據實驗資料,mask問題對效果提公升的作用不明顯)

對超引數的挖掘,主要是batch_size和learning_rate

增加了詞資訊

利用引數優化技術,加速預訓練過程

解決mask token在預訓練與finetune中的不一致、在語言模型中引入了上下文資訊、引入transformer-xl處理長文字

問題將生成器與判別器設定成相同規模大小並實現引數共享,改變預訓練任務,基本就是bert--

同electra一樣,推斷過程並沒有得到優化

xlnet只是扔了表面的[mask]佔位符號,內部還是引入query流來忽略掉被mask的這個單詞。和bert比,只是實現方式不同而已。

bert預訓練模型解讀 Bert 預訓練小結

最近正在預訓練乙個中文pytorch版本的bert,模型部分 是基於huggingface發布的版本,預訓練過程還是參考google的 值得吐槽的是huggingface之前發布的分支名叫pytorch pretrain bert,後來又加上了gpt2 xlnet一系列當紅模型,結果索性改了個名字叫...

BERT 中文預訓練模型使用

只要是從事文字處理相關工作的人應該都知道 google 最新發布的 bert 模型,該模型屬於是詞向量的預訓練模型,一經提出便橫掃各大 nlp 任務,最近 google 公司如約推出了中文詞向量的預訓練模型,不得不說這是一件非常有良心的事情,在此膜拜和感謝 google 公司。那麼如何使用 bert...

BERT的通俗理解 預訓練模型 微調

1 預訓練模型 bert是乙個預訓練的模型,那麼什麼是預訓練呢?舉例子進行簡單的介紹 假設已有a訓練集,先用a對網路進行預訓練,在a任務上學會網路引數,然後儲存以備後用,當來乙個新的任務b,採取相同的網路結構,網路引數初始化的時候可以載入a學習好的引數,其他的高層引數隨機初始化,之後用b任務的訓練資...