深度學習之Seq seq網路

2022-01-22 11:35:25 字數 592 閱讀 6493

知識點

"""

機器翻譯:

歷史:1、逐字翻譯

2、基於統計學的機器翻譯

3、迴圈網路和編碼

翻譯過程: 輸入 -- > encoder -->向量 --> decoder -->output

(rnn) (rnn)

seq_seq應用:文字摘要、聊天機械人、機器翻譯

seq_seq存在的問題:

1、壓縮損失的資訊

2、長度限制(一般10-20最好)

解決方法:

attention機制:高解析度聚焦再的某個特定區域,並以低解析度感知影象的周圍區域的模式

具體表現為:對encoder層進行加權

bucket機制:正常情況要對所有句子進行補全

基礎seq_seq主要包含三個部分:

1、encoder

2、隱層狀態向量(連線encoder和decoder)

3、decoder

"""

哎!,還是多看別人部落格理解吧

lstm: 

attention機制:

深度學習之GRU網路

1 gru概述 gru是lstm網路的一種效果很好的變體,它較lstm網路的結構更加簡單,而且效果也很好,因此也是當前非常流形的一種網路。gru既然是lstm的變體,因此也是可以解決rnn網路中的長依賴問題。在lstm中引入了三個門函式 輸入門 遺忘門和輸出門來控制輸入值 記憶值和輸出值。而在gru...

深度學習之卷積神經網路

卷積神經網路是一種多層神經網路,擅長處理影象特別是大影象的相關機器學習問題。卷積網路通過一系列方法,成功將資料量龐大的影象識別問題不斷降維,最終使其能夠被訓練。cnn最早由yann lecun提出並應用在手寫字型識別上 minst lecun提出的網路稱為lenet,其網路結構如下 這是乙個最典型的...

深度學習之迴圈神經網路

1 recurrent neural networks tutorial,part 1 introduction to rnns 2 understanding lstm networks 這篇文章一步步的解釋了lstm中涉及到的 gates 並且還簡略的介紹了集中lstm的變體,比如gru,文章的...