動手深度學習 筆記 8

2021-10-02 23:10:25 字數 803 閱讀 5971

機器翻譯(mt):將一段文字從一種語言自動翻譯為另一種語言,用神經網路解決這個問題通常稱為神經機器翻譯(nmt)。 主要特徵:輸出是單詞序列而不是單個單詞。 輸出序列的長度可能與源序列的長度不同。

將資料集清洗、轉化為神經網路的輸入minbatch。資料預處理的過程中,我們首先需要對資料進行清洗。

字串—單詞組成的列表。

單詞組成的列表—單詞id組成的列表。

當輸入的維度大於2時,預設情況下,dense例項會將除了第一維(樣本維)以外的維度均視作需要仿射變換的特徵維,並將輸入自動轉成行為樣本、列為特徵的二維矩陣。計算後,輸出矩陣的形狀為(樣本數, 輸出個數)。如果我們希望全連線層只對輸入的最後一維做仿射變換,而保持其他維度上的形狀不變,便需要將dense例項的flatten選項設為false。在下面例子中,全連線層只對輸入的最後一維做仿射變換,因此輸出形狀中只有最後一維變為全連線層的輸出個數2。

我們將實現「注意力機制」一節中定義的函式a:將輸入鏈結後通過含單隱藏層的多層感知機變換。其中隱藏層的輸入是解碼器的隱藏狀態與編碼器在所有時間步上隱藏狀態的一一鏈結,且使用tanh函式作為啟用函式。輸出層的輸出個數為1。兩個dense例項均不使用偏差,且設flatten=false。其中函式a定義裡向量\boldsymbol的長度是乙個超引數,即attention_size。

注意力機制的輸入包括查詢項、鍵項和值項。設編碼器和解碼器的隱藏單元個數相同。這裡的查詢項為解碼器在上一時間步的隱藏狀態,形狀為(批量大小, 隱藏單元個數);鍵項和值項均為編碼器在所有時間步的隱藏狀態,形狀為(時間步數, 批量大小, 隱藏單元個數)。注意力機制返回當前時間步的背景變數,形狀為(批量大小, 隱藏單元個數)。

動手學深度學習學習筆記(8)

影象分類資料集 fashion mnist 使用torchversion包 1.torchversion.datasets 一些載入數的函式及常用的資料集介面 2.torchversion.models 包含常用的模型結構 含預訓練模型 例如alexnet,vgg,resnet等。3.torchve...

筆記 動手學深度學習

在求數值解的優化演算法中,小批量隨機梯度下降 mini batch stochastic gradient descent 在深度學習中被廣泛使用。它的演算法很簡單 先選取一組模型引數的初始值,如隨機選取 接下來對引數進行多次迭代,使每次迭代都可能降低損失函式的值。在每次迭代中,先隨機均勻取樣乙個由...

動手學習深度學習(筆記一)

應用深度學習需要思考的問題 1.問題的動機和特點 2.將大量不同型別神經網路層通過特定的方式組合在一起的模型背後的數字原理 3.在原始資料上擬合極複雜的深層模型的優化演算法 4.有效訓練模型 避免數值計算陷阱以及充分利用硬體效能所需的工程技能 5.為解決方案挑選合適的變數 超引數 組合的經驗。時至今...