《encoder-decoder框架、attention、transformer、elmo、gpt、bert學習總結》
裡面有一些點可以注意:
然後為了防止其結果過大,會除以乙個尺度標度
,其中為乙個query和key向量的維度。
簡單的說是為了讓attention得到的權值更加均勻一點。
在數量級較大時,softmax將幾乎全部的概率分布都分配給了最大值對應的標籤。
如果本身就想獲得差距較大的attention值,可以不用scaled。例如在這裡:
**提出了兩點改進:(1)提出帶有方向與相對位置資訊的atteniton機制;(2)丟棄了原有transformer self-attention的scale factor,scale factor的引入是為了得到分布相對均勻的attention權重,但是在ner中,並不需要關注所有詞。
elmo採用了典型的兩階段過程:
優點:缺點:
gpt是「generative pre-training」的簡稱,從名字看其含義是指的生成式的預訓練。gpt也採用兩階段過程:
與elmo區別:
優點:缺點:
bert採用和gpt完全相同的兩階段模型:
與gpt區別:
最主要不同在於在預訓練階段採用了類似elmo的雙向語言模型
另外一點是語言模型的資料規模要比gpt大
優點:在各種型別的nlp任務中達到目前最好的效果,某些任務效能有極大的提公升
bert最關鍵兩點:
一點是特徵抽取器採用transformer;
第二點是預訓練的時候採用雙向語言模型。
創新點:
一些概念等
struts的基本概念 1.struts是乙個框架 frameset 2.struts是乙個web框架 3.框架提高了程式的規範的同時,也約束了程式的自由 4.是開源的框架 struts為什麼存在 由於對mvc的理解不同,可能造成 規範不統一,不利於程式的維護和擴充套件,所以有必要用乙個統一的規範來...
linux shell script 的一些總結
獲得本機inet ip sbin ifconfig eth0 grep inet addr sed s addr g sed s bcast.g 刪除空白行 cat etc man.config grep man sed s g sed d egrep與grep egrep grep e egrep...
關於Spring Data Rest的一些總結
最近一直在開發一些基於 spring data rest 的專案。在此過程中,隨著開發工作的不斷深入,對 spring data rest 的了解也越來越深。享受著 spring data rest 帶來的便捷,也忍受著它帶來的不便。spring data rest 的目標是提供堅實的基礎,從而使用...