input embedding = token embedding + segmentation embedding + position embedding
三個embedding相加
1、masked lm策略(mlm)
如果只選取什麼詞要mask的話,會有乙個缺點:造成pre-training層和fine-tunning層的不匹配(要保持訓練任務一致),因為[mask]並不會出現呢在fine-tunning層。所以為了減緩這種影響,對於選取的詞會有一定概率不mask
這裡使用transformer模型(下面也是)
2、**下乙個句子(nsp:next sentence prediction)
進行了消融實驗後證明,模型的大部分改善來自於兩個預訓練任務以及他們所帶來的雙向性
這裡的fine-tunning堆模型只用簡單的修改
谷歌BERT 學習
bert 怎麼讀隨便 其實是bidirectional encoder representations from transformers的縮寫,屬於深度雙向預訓練模型,在模型的所有層的表示都依賴於左右兩個方向的上下文。這樣設計的結果就是在大規模預料上預訓練的bert表示再加一層額外的輸出層便可以應...
bert學習筆記
如上圖,正如上一節所說,bert的核心結構其實跟transformer的encoder部分差不多。關於transformer的相關介紹,可檢視 transformer學習筆記 那麼這裡就不再贅述了。雖然bert跟transformer的encoder部分基本差不多,但是還是有一些地方需要注意一下。在...
BERT學習理解
在看了好多大牛們的部落格之後,關於bert有了乙個大概的理解,將一些知識點整理到這裡。bert的全稱是bidirectional encoder representation from transformers,利用了transformer的encoder部分,重點是預處理 訓練pre traini...