bert是乙個deep bidirectional transformer。
transformer可參考 非常詳細易懂
transformer是乙個encoder-decoder框架。
編碼器的結構:
其中,自注意力層在編碼某個詞的時候就會考慮這個詞所在句子的所有詞,所以在編碼的時候,self-attention是bidirectional的。
解碼器的結構如下:
在解碼器中,self-attention的處理模式和編碼器中的self-attention不同。在解碼器中,self-attention只允許處理輸出序列中更靠前的那些位置,把後面的位置隱去。就是相當於只處理這個詞之前的詞,所以,在解碼器中的self-attention是unidirectional的。
但是,bert在解碼過程中會使用這個詞前後的所有上下文,所以說是bidirectional transformer.
原文中的說明是:
另,為什麼使用self-attention?(下面是從attention as all you need 裡面翻譯的)
1.考慮每層的計算複雜度
2.可以並行的計算
3.網路中長依賴的路徑長度。影響學習這種長依賴的乙個主要因素是在網路中向前和向後的訊號需要穿過的路徑的長度。輸入序列和輸出序列中的任何的位置組合之間的路徑越短,就越容易學習到跨度長的依賴。
為什麼說AI是未來
人們都說希望至美,為什麼希望至美,因為希望往往能帶給人快樂 富有。如果未來就如希望一般該有多好。在2017年5年alphago以3 0擊敗圍棋世界冠軍柯潔時,人工智慧技術瞬間點燃了人們的熱情,對人工智慧技術的想象空間被開啟。以其深度學習演算法為基礎的各個應用場景逐個落地。第一波網際網路智慧型化是基於...
為什麼說資訊是負熵?
資訊管理導論裡說 資訊是負熵。一般而言,可以將資訊定義為 資訊是物質系統運動的本質特徵,方式 運動狀態及運動的有序性。而熵簡單地理解就是在一種系統內物質運動的無序狀態,所以負熵就是一種有序的狀態,學習中的負熵可以轉化為大腦皮層的資訊,但是運動中的負熵就可以轉化為肌肉記憶,資訊通過被加工的特定形式的資...
為什麼說String是不可變的
簡單的例子 string s1 abc string s1 s1 s1 def 此時s1變化了嗎?變了!s1的位址從指向 abc 變成指向 def 重要的不在這裡,記憶體上的 abc 本身並沒有被改變!指向 abc 的s2也沒有被改變 兩個final 乙個在string的類修飾符,乙個是string...