網上關於bert的模型講的好的很多
參考bert模型學習與分析
谷歌bert模型深度解析
徹底搞懂bert
這裡簡單描述一下bert和openai gpt模型區別與聯絡
bert和gpt 都是使用了transformer結構,transform的encoder和decoder是有區別的,這也是bert和gpt的區別,很多部落格描述gpt用的是transform的decoder部分,bert用的是encoder部分,這是對的,不過還有人不理解區別在哪,區別就在masked attention,說白了就是attention的疊加方向不一樣,模型真沒啥區別,再往細裡說,decoder之所以是masked attention,因為是解碼嘛,自然在做attention時候不能給詞語看到未來資訊,比如下面這個圖:
所以gpt用的就是decoder部分:
gpt訓練方式和nnlm一樣,利用前n-1個詞**第n詞訓練向量。
bert是如何訓練的?
兩個點:
對中間的詞利用一定規則變成mask(規則指masked lm),然後把這些要**的詞做成標籤進行**。
多工,**兩個句子是不是有關聯性。
xlnet可以解決bert的缺點(下一章準備寫)
參考再談embedding——bert詳解
BERT原理詳解
之前的文章從attention講解到了transformer,本文將會針對目前大熱的bert進行講解,bert的內部結構其實就是多個transformer 的encoder,如果您對transformer並不了解,請參閱我之前的博文。從創新的角度來看,bert其實並沒有過多的結構方面的創新點,其和g...
Bert原理與使用
一.簡介 1.bert模型的核心思想有兩點,對推動nlp的發展有著重要的作用 1 transformer結構 2 無監督的預訓練。transformer是乙個只基於注意力 attention 機制的序列模型。bert模型同時需要預訓練,從兩個無監督任務中獲取權重 語言建模 給定左右上下文,丟失的單詞...
bert原始碼詳解
1 bert結構 2 句子token 原始輸入my dog is cute bert的token方式有3種,basictoken,peicetoken,fulltoken 在這篇部落格中,作者進行了論述 4 output 5 任務 mlm nsp mlm任務中被選15 的 for index in ...