nlp實踐模型優化方案
初次結果:
優化方案:
哈工大訊飛聯合實驗室(
hfl)相繼發布了基於
whole word masking
(wwm
)的中文預訓練
bert
模型(bert-wwm
,bert-wwm-ext
)以及中文預訓練
xlnet
模型(xlnet-mid
,xlnet-base
提出的roberta
模型進一步重新整理了多個英文資料集的最好成績,成為目前最流行的預訓練模型之一。哈工大訊飛聯合實驗室結合中文whole word masking技術以及roberta模型發布中文roberta-wwm-ext預訓練模型。該模型在使用上與中文
bert
中文roberta-wwm-ext
本次發布的中文
roberta-wwm-ext
結合了中文
whole word masking
技術以及
roberta
模型的優勢,得以獲得更好的實驗效果。該模型包含如下特點:
優化方案
一、更改為chinese-roberta-wwm-ext模型
模型上傳到
模型執行
python train.py
結果展示
優化方案
二、更改為chinese-roberta-wwm-ext-large模型
模型上傳到
修改net.py
bert-large模型:
24-layer, 1024-hidden, 16-heads, 330m parameters
bert-base模型:
模型執行
python train.py
結果展示
優化方案
三、使用chinese-roberta-wwm-ext模型,修改dropout引數
模型上傳到
修改引數 net.py dropout
self.dropout = nn.dropout(0.3)
模型執行
python train.py
結果展示
NLP模型常見問題及解決方案
一 序列標註任務 輸出全為0的情況 1.1 模型搭建出現問題,檢查模型是否正確 1.2 學習率太小導致未收斂出現全0的情況,其中如果含bert的模型可以嘗試對不同引數設定不同學習率。1.3 batch size過大導致全0的情況,需要調小batch 二 關於含bert模型的引數設定問題 學習率建議設...
NLP01 NLP基礎 語言模型
本次學習是根據貪心科技的李文哲老師的語言模型課程所整理的相關筆記,並加上自己的理解。內容包括 語言模型的介紹 chain rule 以及馬爾可夫假設 unigram,bigram,ngram 估計語言模型的概率 評估語言模型 perplexity add one 平滑,add k平滑 interpo...
NLP(四) 語言模型
這是一系列自然語言處理的介紹,本文不會涉及公式推導,主要是一些演算法思想的隨筆記錄。適用人群 自然語言處理初學者,轉ai的開發人員。程式語言 python 參考書籍 數學之美 參考教程 機器讀心術之自然語言處理 對於像漢語,英語這樣的大型自然語言系統,難以構造精確的文法 不符合人類學習語言的習慣 有...