cpt: a pre-trained unbalanced transformer for both chinese language understanding and generation
復旦大學,邱錫鵬老師團隊
使用不平衡的transformer編碼器解碼器架構,用mlm和dae聯合預訓練,均可用於nlu和nlg。
bert、roberta、zen、nezha、ernie-1.0/2.0可以文字理解,但是不能文字生成;
pangu-α、cpm、cpm-2、bart可以文字生成,但是不能文字理解;
cpt既可以文字理解,又可以文字生成。
微調的任務
BERT 中文預訓練模型使用
只要是從事文字處理相關工作的人應該都知道 google 最新發布的 bert 模型,該模型屬於是詞向量的預訓練模型,一經提出便橫掃各大 nlp 任務,最近 google 公司如約推出了中文詞向量的預訓練模型,不得不說這是一件非常有良心的事情,在此膜拜和感謝 google 公司。那麼如何使用 bert...
BERT的通俗理解 預訓練模型 微調
1 預訓練模型 bert是乙個預訓練的模型,那麼什麼是預訓練呢?舉例子進行簡單的介紹 假設已有a訓練集,先用a對網路進行預訓練,在a任務上學會網路引數,然後儲存以備後用,當來乙個新的任務b,採取相同的網路結構,網路引數初始化的時候可以載入a學習好的引數,其他的高層引數隨機初始化,之後用b任務的訓練資...
YOLO 之理解預訓練和微調
問題描述 在閱讀yolo 的時候,總是出現預訓練 pretraining 以及微調 fine tuning 那麼問題來了 預訓練是什麼?為什麼要用預訓練?怎樣預訓練?微調是什麼?為什麼要用微調?怎樣微調?什麼是預訓練和微調?你需要搭建乙個網路模型來完成乙個特定的影象分類的任務。首先,你需要隨機初始化...