機器翻譯技術的含義 發展和應用

2021-09-16 19:21:43 字數 2696 閱讀 9396

■ 機器翻譯是什麼?

機器翻譯是計算語言學的乙個分支,也是人工智慧領域的乙個重要應用,其最早的相關研究可以追溯到20世紀50年代。

隨著網際網路的飛速發展,人們對語言翻譯的需求與日俱增。根據維基百科的資料,目前網際網路上存在數百種不同的語言,其中英語內容佔網際網路全部內容的一半左右,而以英語為母語的網際網路使用者只佔全部網際網路使用者的四分之一。跨域語言屏障,獲取網際網路上更多的內容是持續增長的需求。

機器翻譯,即通過計算機將一種語言的文字翻譯成另一種語言,已成為目前解決語言屏障的重要方法之一。早在2023年,谷歌翻譯每天提供翻譯服務就達十億次之多,相當於全球一年的人工翻譯量,處理的文字數量相當於一百萬冊圖書。

相比人工翻譯,機器翻譯可以大幅節約翻譯時間,提高翻譯效率,滿足諸如資訊等時效性要求較高或者海量文字的翻譯需求,極大地降低了人力成本。而更重要的是,它讓跨語言交流變成每個人都可以擁有的能力:出國、工作、學習很多時候不再求助於人,語言不通不再是人們獲取資訊和服務的障礙。

■ 機器翻譯技術的發展

近些年來,隨著大資料的湧現,機器翻譯取得的進展有目共睹。通過對海量資料的匯聚、分析、組合,當資料無限多時,機器翻譯也許根本不需要再去了解乙個句子的意思,也可以翻譯得相當漂亮。

機器翻譯的研究經歷了基於規則的方法、基於統計的方法、基於神經網路的方法三個階段的發展。在機器翻譯研究的早期,主要 使用基於規則的方法。機器翻譯系統根據語言專家編寫的翻譯規則進行翻譯,這是乙個機械式的過程。基於規則的方法受限於人工編寫的規則的質量和數量,編寫規 則非常費時費力,且翻譯規則無法用於不同的語言對之間。同時,規則數量增多,互相衝突的規則也隨之增多,難以覆蓋人類語言的全部情況,這也是機器翻譯系統 的瓶頸。

20世紀90年代,基於統計的機器翻譯方法被提出,隨後迅速成了機器翻譯研究的主流方法。統計機器翻譯使用雙語平行語料 庫(即同時包含源語言和與其互為譯文的目標語言文字的語料庫,作為訓練資料。世人熟知的羅塞塔石碑(見下圖)可以認為是古老的平行語料庫,石碑上 用聖書體、世俗體、古希臘語三種文字記錄了相同的內容。正是羅塞塔石碑的發現才使得語言學家們獲得了破譯聖書體的鑰匙。

圖  羅塞塔石碑

統計機器翻譯模型從平行語料中挖掘出不同語言的詞語間的對齊關係,基於對齊關係自動抽取翻譯規則。乙個經典的統計機器翻譯模 型通常包含翻譯模型、調序模型和語言模型三部分。翻譯模型負責估算單詞、短語間互相翻譯的概率,調序模型對翻譯後的語言片段排序進行建模,而語言模型則用 於計算生成的譯文是否符合目標語言的表達習慣。統計翻譯模型減少了人工參與,模型本身和訓練過程具有語言無關性,大大提公升了機器翻譯的效能和使用範圍。

近年來隨著基於神經網路的方法被引入機器翻譯領域,機器翻譯的效能得到了大幅提高。根據谷歌機器翻譯團隊發布的資訊,谷 歌翻譯於 2016 年 9 月上線中英神經網路模型,截至 2017 年 5 月,已經支援 41對雙語翻譯模組,超過 50% 的翻譯流量已經由神經網路模型提供。

神經網路模型同樣需要使用平行語料庫作為訓練資料,但和統計機器翻譯將模型拆解成多個部分不同,神經網路模型通常是乙個 整體的序列到序列模型。以常見的迴圈神經網路為例,神經網路模型首先需要將源語言和目標語言的詞語轉化為向量表達,隨後用迴圈神經網路對翻譯過程進行建 模,如圖所示。通常會先使用乙個迴圈神經網路作為編碼器,將輸入序列(源語言句子的詞序列)編碼成為乙個向量表示,然後再使用乙個迴圈神經網路 作為解碼器,從編碼器得到的向量表示裡解碼得到輸出序列(目標語言句子的詞序列)。

圖 迴圈神經網路

神經網路模型近年來已經成為機器翻譯領域研究和應用的熱點,對於神經網路翻譯模型有很多新的改進,例如lstm、注意力機制、訓練目標改進、無平行語料訓練等,機器翻譯系統的效能正如日方公升,一步步接近人類水平。

■ 機器翻譯的應用

圖 谷歌翻譯的拍圖翻譯

機器翻譯領域吸引了越來越多的關注,同時也面臨著巨大的挑戰。如何克服現有的缺陷(例如神經網路模型可解釋性差的問 題),實現翻譯效能的進一步提高仍是乙個待解決的問題。現階段機器翻譯的應用仍處於簡單理解其他語言、輔助翻譯等方面,離大規模替代人工翻譯還有不小的差 距。但隨著業界的廣泛關注,人才的不斷湧入,機器翻譯領域將持續蓬勃發展,人類世界的巴別塔也終會得以重建。

網際網路翻譯的終極使命就是消滅語言障礙。未來哪一種語言成為通用語言並不重要,但使用網際網路翻譯工具,就像駕車一樣會成為人們的基本技能。我相信,未來機器翻譯會做得足夠自然流暢,與智慧型手機、智慧型手錶這些裝置融合起來,人們可以便捷地使用,如同隨身攜帶乙個翻譯助理。而在一些垂直行業上,比如電影字幕的翻譯、跨境電商的客服,機器翻譯都將迎來用武之地。

隨著科技與社會經濟的快速發展,相信機器翻譯技術必將逐漸改變人們的工作、生活方式,隨時隨地為人們解決語言障礙,讓世界再平一點。

本文部分摘自《百面機器學習》,作者是諸葛越和葫蘆娃,這本書目前收錄了超過100道機器學習演算法工程師的面試題目和解答,其中大部分源於hulu演算法研究崗位的真實場景。個人認為這本書非常值得一看,強烈建議大家買一本紙質書籍放在床頭每天查閱,不久的將來您一定能成為機器學習領域的大牛!

'); (window.slotbydup = window.slotbydup || ).push(); })();

'); (window.slotbydup = window.slotbydup || ).push(); })();

機器翻譯技術的含義 發展和應用

機器翻譯是什麼?機器翻譯是計算語言學的乙個分支,也是人工智慧領域的乙個重要應用,其最早的相關研究可以追溯到20世紀50年代。隨著網際網路的飛速發展,人們對語言翻譯的需求與日俱增。根據維基百科的資料,目前網際網路上存在數百種不同的語言,其中英語內容佔網際網路全部內容的一半左右,而以英語為母語的網際網路...

機器翻譯及相關技術筆記

一 機器翻譯和資料集 機器翻譯 mt 將一段文字從一種語言自動翻譯為另一種語言,用神經網路解決這個問題通常稱為神經機器翻譯 nmt 主要特徵 輸出是單詞序列而不是單個單詞。輸出序列的長度可能與源序列的長度不同。字元在計算機裡是以編碼的形式存在,我們通常所用的空格是 x20 是在標準ascii可見字元...

小曹談技術之機器翻譯

機器翻譯,顧名思義,就是使用計算機來進行語言之間的翻譯。機器翻譯是乙個非常困難的人工智慧任務,研究了多年了,目前有一些可行的方法,但是效果還是不能與人工翻譯的效果相比。最簡單的乙個機器翻譯系統的實現,就是乙個查詞表的翻譯。例如 我今天在學校吃的午餐 現在手頭上有乙個詞表,可以得到每個詞的翻譯。首先分...