elmo由雙向lstm作為特徵獲取器,最後得到了三層embedding,最底層是單詞的word embedding,向上一層為單詞位置的embedding,句法資訊多一些;再向上也是單詞位置的embedding,語法資訊多一些。對於新的乙個句子,將會得到三個embedding,然後有乙個權重a,將三個embedding進行整合。
然而,1.lsmt提取特徵的能力弱於transformer(在2023年google的機器翻譯任務"attention is all you need",本質上是attention疊加結構,[【transformer>lstm>cnn】那麼trainsormer和cnn有社麼區別呢);2憑藉方式雙向融合特徵能力偏弱。
gpt(generative pre-training)的預訓練依然以語言模型作為目標任務,與elmo不同的是,gpt只用了上文來進行訓練。在下游任務上,需要把任務的網路結構該程和gpt一樣的,然後在做下游任務時將第一步預訓練好的語言學知識引入手頭的任務(不同的結構為什麼不可以)。
bert採用了和gpt完全相同的兩階段模型,語言模型訓練,然後fine-tuning解決下游任務。和gpt最主要的區別是使用了 類似elmo的雙向訓練方式(transformer),資料集也比gpt大。對於四大類任務,1.句子任務;2.分類;3.序列標註;4.句子生成都可以很方便地改造為bert接受的方式。bert有兩個要點:1.採用了transformer做特徵提取器;2.採用了雙向語言模型。跟elmo的雙向方式不同,其是在完形填空(cbow)的方式進行訓練,通過窺視上下文。
[masked]標記中的80%被真正替換為[masked],10%被隨機替換為另外乙個單詞,10%原地不動。訓練語言模型的過程中順帶還做next sentence prediction的任務,大致是選擇真正相連的句子,另一種是隨機選擇乙個句子後面的句子拼接起來。[cls] 句子1 [sep] 句子2[sep] 其中[cls]代表類別。
bert的每個單詞有3個embedding,分別為位置,單詞,句子embedding。
bert採用了transformer的架構,內部也是encoders-decoders的結構。
bert比transformer更多頭,bert base有12個,bert large有16個。
12層encoder類似於elmo的三層特徵提取網路結構嘛?之前聽說過使用bert的後四層,是說後面四層的decoder結構以及引數?
PMI理論學習
pmi九大知識領域 整合管理 工作範圍管理 時間管理 費用管理 質量管理 人力資源管理 溝通管理 風險管理和採購管理 和五個專案管理過程 啟動 計畫 執行 控制 收尾 九大知識領域包括 1 專案範圍管理 是為了實現專案的目標,對專案的工作內容進行控制的管理過程。它包括範圍的界定,範圍的規劃,範圍的調...
LSTM理論學習
lstm最關鍵的就是實現cell state的傳輸,而gate的存在決定傳輸過程中,以前的cell state資訊多少需要拋棄,多少輸入資訊需要加入新的cell state,多少資訊需要輸出。所以有forget,input,output三個gate 忘記多少cell state forget gat...
AI理論學習
關於ai理論學習的筆記 淺顯地理解ai領域,輸入如感知推理,輸出如下棋寫詩,有為了更好通過圖靈測試的仿生,或則是減少人工介入的 智慧型 圖靈測試就是讓人分不清是人還是機器,涉及自然語言處理 表達 推理和學習,刻意避免了直接的物理互動,完全的圖靈測試還包括計算機視覺和機械人控制,用以增強感知和輸出。亞...