convbert: improving bert with span-based dynamic convolution
雖然bert的從全域性產生了注意力map,我們觀察到一些 注意力頭 只需要學到區域性的依賴即可,也就是bert存在冗餘。
於是我們提出 基於區間的動態卷積 來替換 自注意力頭 來 直接建模區域性依賴。
convbert-base模型在glue達到86.4分,比electra-base高0.7分,同時僅用1/4的訓練量。
多頭自注意力提取整體特徵,卷積提取區域性特徵,
我們提出 將卷積結合自注意力 ,以成為混合注意力 來結合兩者的優點,
由於 動態卷積 只能輸入乙個token進行區分,
我們提出了 區間動態卷積,可以輸入乙個區間的token,也就是基於上下文進行區分,
(上圖:)自注意力、動態卷積、區間動態卷積,(lconv 表示輕量級的 depth-wise 卷積)
(上圖:)混合注意力模組
閱讀任務 閱讀筆記 4
功能驅動的設計 1 構造總體模型 2 構造功能列表 3 制定開發計畫 4 功能設計階段 5 實現具體功能 軟體測試按目的分類 1 功能測試 2 非功能測試 軟體測試的各種方法 1 單元測試和 覆蓋率測試 2 構建驗證測試 3 驗收測試 4 探索式的測試 5 回歸測試 6 場景 整合 系統測試 7 夥...
閱讀筆記 2006 01
請您尊重您的價值,因為它已經得到了社會的認可。當你貶低或破壞您的價值時,就等於貶低或破壞整個行業在這個社會的價值。無論在什麼時候,自己都應該尊重自己的價值,而不能因為一時的困境而貶低和破壞了自己的價值,因為你的破壞之舉,將傷害到整個行業的價值乃至社會的規則。因為,唯有懂得尊重自己的價值的人,才能真正...
25 211(840) 閱讀筆記
傳輸通道rach特點 存在衝突風險 使用開環功控。物理通道通過載頻 擾碼 通道化碼 起始時間定義,對於上行通道,還包括相對相位 0或p 2 上行dpch為i q碼復用。fbi bits提供從ue到網路的反饋資訊,以用於閉環傳送分集。上行dpch可以使用多碼,這種情況下,多個並行的dpdch使用不同的...