一、機器翻譯及相關技術
1.機器翻譯(mt):將一段文字從一種語言自動翻譯為另一種語言,用神經網路解決這個問題通常稱為神經機器翻譯(nmt)。 主要特徵:輸出是單詞序列而不是單個單詞。 輸出序列的長度可能與源序列的長度不同。
all()函式:用於判斷給定的可迭代引數中所有元素是否都為true,
返回:iterable中所有元素不為0、「」、false、none外都為true。
2.encoder-decoder(解決輸入輸出長度不等價)
encoder:輸入到隱藏狀態
decoder:隱藏狀態到輸出
3.sequence to sequence模型
num_embeddings (int) - 嵌入字典的大小
embedding_dim (int) - 每個嵌入向量的大小
padding_idx (int, optional) - 如果提供的話,輸出遇到此下標時用零填充
max_norm (float, optional) - 如果提供的話,會重新歸一化詞嵌入,使它們的範數小於提供的值
norm_type (float, optional) - 對於max_norm選項計算p範數時的p
scale_grad_by_freq (boolean, optional) - 如果提供的話,會根據字典中單詞頻率縮放梯度
weight weight (tensor) -形狀為(num_embeddings, embedding_dim)的模組中可學習的權值
輸入: longtensor (n, w), n = mini-batch, w = 每個mini-batch中提取的下標數
輸出: (n, w, embedding_dim)
2)tensor.transpose()
將乙個tensorflow的兩個維度互換
3)torch.ones_like(input, dtype=none, layout=none, device=none, requires_grad=false)
返回乙個填充了標量值1的張量,其大小與input相同。
4.訓練
1)若選用gpu作為device,那麼訓練的所有tensor也應放於gpu中,
2)optim.adam()
5.測試
1)torch.queeze()
6.集束搜尋
二、注意力機制與seq2seq模型
1.attention是一種
2.遮蔽操作
3超出二維矩陣的乘法
4dot product attention\
5.多層感知機attention
6 引入注意力機制的seq2seq
二、transformer
1.transformer模型概念
2.多頭注意力層
3.基於位置的前饋網路
4.add and norm
5.位置編碼
機器翻譯及相關技術筆記
一 機器翻譯和資料集 機器翻譯 mt 將一段文字從一種語言自動翻譯為另一種語言,用神經網路解決這個問題通常稱為神經機器翻譯 nmt 主要特徵 輸出是單詞序列而不是單個單詞。輸出序列的長度可能與源序列的長度不同。字元在計算機裡是以編碼的形式存在,我們通常所用的空格是 x20 是在標準ascii可見字元...
小曹談技術之機器翻譯
機器翻譯,顧名思義,就是使用計算機來進行語言之間的翻譯。機器翻譯是乙個非常困難的人工智慧任務,研究了多年了,目前有一些可行的方法,但是效果還是不能與人工翻譯的效果相比。最簡單的乙個機器翻譯系統的實現,就是乙個查詞表的翻譯。例如 我今天在學校吃的午餐 現在手頭上有乙個詞表,可以得到每個詞的翻譯。首先分...
佇列基本操作及應用(機器翻譯)
queue 模板類的定義在標頭檔案中。與stack 模板類很相似,queue 模板類也需要兩個模板引數,乙個是元素型別,乙個容器型別,元素型別是必要的,容器型別是可選的,預設為deque 型別。定義queue 物件的示例 如下 queue int q queue double q queue 的基本...