知識點
"""機器翻譯:
歷史:1、逐字翻譯
2、基於統計學的機器翻譯
3、迴圈網路和編碼
翻譯過程: 輸入 -- > encoder -->向量 --> decoder -->output
(rnn) (rnn)
seq_seq應用:文字摘要、聊天機械人、機器翻譯
seq_seq存在的問題:
1、壓縮損失的資訊
2、長度限制(一般10-20最好)
解決方法:
attention機制:高解析度聚焦再的某個特定區域,並以低解析度感知影象的周圍區域的模式
具體表現為:對encoder層進行加權
bucket機制:正常情況要對所有句子進行補全
基礎seq_seq主要包含三個部分:
1、encoder
2、隱層狀態向量(連線encoder和decoder)
3、decoder
"""
哎!,還是多看別人部落格理解吧
lstm:attention機制:
深度學習之GRU網路
1 gru概述 gru是lstm網路的一種效果很好的變體,它較lstm網路的結構更加簡單,而且效果也很好,因此也是當前非常流形的一種網路。gru既然是lstm的變體,因此也是可以解決rnn網路中的長依賴問題。在lstm中引入了三個門函式 輸入門 遺忘門和輸出門來控制輸入值 記憶值和輸出值。而在gru...
深度學習之卷積神經網路
卷積神經網路是一種多層神經網路,擅長處理影象特別是大影象的相關機器學習問題。卷積網路通過一系列方法,成功將資料量龐大的影象識別問題不斷降維,最終使其能夠被訓練。cnn最早由yann lecun提出並應用在手寫字型識別上 minst lecun提出的網路稱為lenet,其網路結構如下 這是乙個最典型的...
深度學習之迴圈神經網路
1 recurrent neural networks tutorial,part 1 introduction to rnns 2 understanding lstm networks 這篇文章一步步的解釋了lstm中涉及到的 gates 並且還簡略的介紹了集中lstm的變體,比如gru,文章的...