ccmt旨在為國內外機器翻譯界同行提供乙個互動平台,加強國內外同行的學術交流,召集各路專家學者針對機器翻譯的理論方法、應用技術和評測活動等若干關鍵問題進行深入的研討。
除學術**報告外,本次會議邀請了國內外知名專家進行特邀報告,面向學生和青年學者舉行專題講座,邀請學界和產業界專家舉行專題討論會,面向研究者和使用者進行系統展示等,通過豐富多彩的形式和與會者互動**機器翻譯最熾熱的研究論點,揭示機器翻譯最前沿的藍圖。
這三個話題分別是:
對於第乙個話題,專家們就應用和技術層面進行了討論。朱靖波教授認為機器翻譯的瓶頸主要在應用層面,李沐博士強調了瓶頸的定義問題,劉群教授指出資料稀疏是個瓶頸,劉洋教授則補充道知識獲取也是乙個瓶頸。
值得一提的是,針對第二個話題,朱靖波教授提出了「不存在***機器翻譯」的觀點,直面眾專家的反駁,張民教授在這時候加入,並表示反對。
在第三個話題的討論中,眾專家就可解釋性的定義和重新理解層面進行了討論。朱靖波教授提出了乙個富有啟發性的問題:應該從揭示機器翻譯模型的數學推理過程的角度研究可解釋性,還是從人類對模型結果的理解的角度研究可解釋性?
NLP 機器翻譯中的Attention
encoder decoder模型雖然非常經典,但是侷限性也非常大。最大的侷限性就在於編碼和解碼之間的唯一聯 系就是乙個固定長度的語義向量c。也就是說,編碼器要將整個序列的資訊壓縮進乙個固定長度的向量中。但是這樣做有兩個弊端,一是語義向量無法完全表示整個序列的資訊,二是先輸入的內容攜帶的資訊會被後輸...
機器翻譯的資料預處理
主要分為三大塊 去重 重複的資料會使訓練過程有偏。可以簡單地去除完全相同的句對,也可以計算每兩個句子之間的區域性雜湊值,把相似度小於某個閾值的句對都去除 去空行 空行不能提供任何資訊,而且可能會引起bug 特殊符號處理 這個就需要通過肉眼來觀察,然後確定乙個特殊符號列表了。常見的,包含控制字元 轉義...
機器翻譯的前世今生(2)
在 機器翻譯的前世今生 1 中我們提到,基於例項的機器翻譯 embt 給機器翻譯界帶來了新的希望 我們將不再需要自己構建規則,我們只需要將已有的翻譯交給機器。然而,在革命的第一步邁出短短5年後,統計機器翻譯 smt 出現了。90年代早期,ibm研究中心研發出一種機器翻譯系統,它在大量雙語平行語料基礎...