task03:過擬合、欠擬合及其解決方案;梯度消失、梯度**;迴圈神經網路高階
task04:機器翻譯及相關技術;注意力機制與seq2seq模型;transformer
task05:卷積神經網路基礎;lenet;卷積神經網路高階
在實踐中,我們要盡可能同時應對欠擬合和過擬合。雖然有很多因素可能導致這兩種擬合問題,在這裡我們重點討論兩個因素:模型複雜度和訓練資料集大小。
當我們將w初始化為乙個較大的值時,例如》10的值,那麼從輸出層到輸入層每一層都會有乙個s『(zn)*wn的增倍,當s『(zn)為0.25時s『(zn)*wn>2.5,同梯度消失類似,當神經網路很深時,梯度呈指數級增長,最後到輸入時,梯度將會非常大,我們會得到乙個非常大的權重更新,這就是梯度**的問題,在迴圈神經網路中最為常見.
gru(gate recurrent unit)是迴圈神經網路(recurrent neural network, rnn)的一種。和lstm(long-short term memory)一樣,也是為了解決長期記憶和反向傳播中的梯度等問題而提出來的。
gru的輸入輸出結構與普通的rnn是一樣的。
長短期記憶網路(lstm,long short-term memory)是一種時間迴圈神經網路,是為了解決一般的rnn(迴圈神經網路)存在的長期依賴問題而專門設計出來的,所有的rnn都具有一種重複神經網路模組的鏈式形式。在標準rnn中,這個重複的結構模組只有乙個非常簡單的結構,例如乙個tanh層。
機器翻譯(mt):將一段文字從一種語言自動翻譯為另一種語言,用神經網路解決這個問題通常稱為神經機器翻譯(nmt)。 主要特徵:輸出是單詞序列而不是單個單詞。 輸出序列的長度可能與源序列的長度不同。
在「編碼器—解碼器(seq2seq)」⼀節⾥,解碼器在各個時間步依賴相同的背景變數(context vector)來獲取輸⼊序列資訊。當編碼器為迴圈神經⽹絡時,背景變數來⾃它最終時間步的隱藏狀態。將源序列輸入資訊以迴圈單位狀態編碼,然後將其傳遞給解碼器以生成目標序列。然而這種結構存在著問題,尤其是rnn機制實際中存在長程梯度消失的問題,對於較長的句子,我們很難寄希望於將輸入的序列轉化為定長的向量而儲存所有的有效資訊,所以隨著所需翻譯句子的長度的增加,這種結構的效果會顯著下降。
動手學深度學習 打卡02
分詞時用到了split函式 split 通過指定分隔符對字串進行切片,如果引數 num 有指定值,則分隔 num 1 個子字串 str split str num string.count str 為方便模型處理,我們需要將字串轉換為數字。因此我們需要先構建乙個字典,其中的內容將每個詞對映到乙個唯一...
js學習 打卡day02
2.轉換方式 規則 轉換規則是什麼?關係 邏輯 強制 主動轉換,可以拿到轉換結果 parsefloat 要轉換的字元 math.round 要轉換的字元 number 要轉換的字元 數值轉字元 要轉的數值.tofixed n string 要轉的數字 其他轉布林 三大特殊資料 程式的結構 選擇 分支...
DL學習筆記 1 執行CAFFE程式
按照大神的 中的教程安裝就好啦 然後我這裡簡要寫一點點自己安裝過程中的問題和簡要的安裝過程 1 安裝vs2012 2 安裝cuda6.5 3 按照教程配置各種變數等 其中系統目錄是指環境變數 系統變數 path 然後成功安裝之後就是閃退啦,用命令列執行會出現這幾條語句 如果不需要編譯 就是根據c 程...