NLP實踐模型優化方案

nlp實踐模型優化方案

初次結果：

優化方案：

哈工大訊飛聯合實驗室（

hfl）相繼發布了基於

whole word masking

（wwm

）的中文預訓練

bert

模型（bert-wwm

，bert-wwm-ext

）以及中文預訓練

xlnet

模型（xlnet-mid

，xlnet-base

facebook

提出的roberta

模型進一步重新整理了多個英文資料集的最好成績，成為目前最流行的預訓練模型之一。哈工大訊飛聯合實驗室結合中文whole word masking技術以及roberta模型發布中文roberta-wwm-ext預訓練模型。該模型在使用上與中文

bert

中文roberta-wwm-ext

本次發布的中文

roberta-wwm-ext

結合了中文

whole word masking

技術以及

roberta

模型的優勢，得以獲得更好的實驗效果。該模型包含如下特點：

優化方案

一、更改為chinese-roberta-wwm-ext模型

模型上傳到

模型執行

python train.py

結果展示

優化方案

二、更改為chinese-roberta-wwm-ext-large模型

模型上傳到

修改net.py

bert-large模型：

24-layer, 1024-hidden, 16-heads, 330m parameters

bert-base模型：

模型執行

python train.py

結果展示

優化方案

三、使用chinese-roberta-wwm-ext模型，修改dropout引數

模型上傳到

修改引數 net.py dropout

self.dropout = nn.dropout(0.3)

模型執行

python train.py

結果展示

NLP模型常見問題及解決方案

一序列標註任務輸出全為0的情況 1.1 模型搭建出現問題，檢查模型是否正確 1.2 學習率太小導致未收斂出現全0的情況，其中如果含bert的模型可以嘗試對不同引數設定不同學習率。1.3 batch size過大導致全0的情況，需要調小batch 二關於含bert模型的引數設定問題學習率建議設...

NLP01 NLP基礎語言模型

本次學習是根據貪心科技的李文哲老師的語言模型課程所整理的相關筆記，並加上自己的理解。內容包括語言模型的介紹 chain rule 以及馬爾可夫假設 unigram,bigram,ngram 估計語言模型的概率評估語言模型 perplexity add one 平滑，add k平滑 interpo...

NLP（四）語言模型

這是一系列自然語言處理的介紹，本文不會涉及公式推導，主要是一些演算法思想的隨筆記錄。適用人群自然語言處理初學者，轉ai的開發人員。程式語言 python 參考書籍數學之美參考教程機器讀心術之自然語言處理對於像漢語，英語這樣的大型自然語言系統，難以構造精確的文法不符合人類學習語言的習慣有...

NLP實踐模型優化方案

NLP模型常見問題及解決方案

NLP01 NLP基礎 語言模型

NLP（四） 語言模型

相關推薦

NLP01 NLP基礎語言模型

NLP（四）語言模型