最新 TensorFlow開源的序列到序列框架

2021-08-08 01:22:28 字數 2827 閱讀 4403

4月11日,google的大腦研究團隊發布了 tf-seq2seq這個開源的tensorflow框架,它能夠輕易進行實驗而達到現有的效果,團隊製作了該框架的**庫和模組等,能夠最好地支援其功能。

去年,該團隊發布了google神經機器翻譯(googleneural machine translation,gnmt),它是乙個序列到序列sequence-to-sequence(「seq2seq」)的模型,目前用於google翻譯系統中。

雖然gnmt在翻譯質量上有長足的進步,但是它還是受限於訓練的框架無法對外部研究人員開放的短板。

tf-seq2seq:支援各種標準seq2seq模型的配置

此框架支援各種標準seq2seq模型的配置,例如深度的編碼器和解碼器,注意力機制,rnn或beam尺寸大小。這些功能讓我們能夠更好地發現最優超引數,得到更好的框架,詳細可見團隊的文章《神經機器翻譯架構的大量探索》(「massive explorationof neural machine translation architectures」)

乙個seq2seq模型能夠翻譯普通話到英文,每次翻譯中,編碼器都會處理1個漢字(黑色箭頭),並生產乙個輸出向量(見藍色箭頭),解碼器會逐字生成英文翻譯,每次都處理最後乙個詞的前乙個狀態,並處理乙個加權的所有的編碼輸出(aka attention[3],藍色),最後輸出下乙個英文詞。注意在應用中研究人員使用的是wordpieces[4]來處理生詞。

tf-seq2seq:應用於各種序列到序列的任務

除了機器翻譯外,tf-seq2seq能夠應用於序列到序列的任務(例如學習基於乙個輸入序列產生輸出序列的情況),包括機器總結、影象處理、語言識別和對話建模。該研究團隊希望提出的新框架能夠加速深度學習的研究,具體可以見其github的專案庫github repository。

**摘要

神經機器翻譯(nmt)在過去幾年中取得了顯著的進步,現在生產系統正在部署到終端使用者。 目前架構的乙個主要缺點是訓練費用昂貴,通常需要幾天到幾周的gpu時間來收斂。 這使得窮盡的超引數搜尋,如通常與其他神經網路架構一樣,非常昂貴。 在這項工作中,我們介紹了nmt架構超引數的第一次大規模分析。對應於gpu上的標準wmt英語超過250000小時的德語翻譯任務。 我們的實驗為構建和擴充套件nmt架構提供了新的見解和實用建議。 作為這一貢獻的一部分,我們發布了乙個開放原始碼的nmt框架,使研究人員能夠輕鬆實驗新技術,並重現現有技術的結果。

**關鍵資料對比:

github資源:

參考文獻

[1] massive exploration of neural machine translation architectures, denny britz, anna goldie, minh-thang luong, quoc le(

[2] sequence to sequence learning with neural networks, ilya sutskever, oriol vinyals, quoc v. le. nips, 2014(

[3] neural machine translation by jointly learning to align and translate, dzmitry bahdanau, kyunghyun cho, yoshua bengio. iclr, 2015(

[4] google』s neural machine translation system: bridging the gap between human and machine translation, yonghui wu, mike schuster, zhifeng chen, quoc v. le, mohammad norouzi, wolfgang macherey, maxim krikun, yuan cao, qin gao, klaus macherey, jeff klingner, apurva shah, melvin johnson, xiaobing liu, łukasz kaiser, stephan gouws, yoshikiyo kato, taku kudo, hideto kazawa, keith stevens, george kurian, nishant patil, wei wang, cliff young, jason smith, jason riesa, alex rudnick, oriol vinyals, greg corrado, macduff hughes, jeffrey dean. technical report, 2016(

[5] attention and augmented recurrent neural networks, chris olah, shan carter. distill, 2016(

[6] neural machine translation and sequence-to-sequence models: a tutorial, graham neubig(

[7] sequence-to-sequence models, tensorflow.org(

TensorFlow的開源與Hadoop的開源

最近看tensorflow 的時候,用git pull下來最新的master一看,哇好多的更新,然後點選去之前看到一半的cc檔案繼續看,好多地方都改變了。但是一看git log,有好多巨大的commit叫什麼 merge commit for internal changes merge for g...

TensorFlow最新應用 資源集錦

原文 if i can learn to play atari,i can learn tensorflow這是一篇關於深度學習新庫 新工具 新框架的總結。深度學習正在成為企業和高校的熱門研究領域之一。深度學習相關的工具和函式庫也層出不窮。去年,谷歌開源了其深度學習庫tensorflow,正被廣泛應...

谷歌開源 TensorFlow 的簡化庫 JAX

開發四年只會寫業務 分布式高併發都不會還做程式設計師?谷歌開源了乙個 tensorflow 的簡化庫 jax。jax 結合了 autograd 和 xla,專門用於高效能機器學習研究。憑藉 autograd,jax 可以求導迴圈 分支 遞迴和閉包函式,並且它可以進行三階求導。通過 grad,它支援自...