由 www.lucene.com.cn 提供 史洪柏 葛帥
3. generalized ebmt的介紹
gereralization:將語句中的某些詞語或短語用更一般的概念來表示。可以很大程度上減少對例項庫規模的需求。
泛化採用的基本方法:
-通過對大規模語料的訓練進行word cluster 來自動的對例項進行一般化
-利用現有的語義詞典計算詞語的上下位來自動的對例項進行一般化
舉例說明:
- john hancock was in philadelphia on july 4
- john hancock war am 4.juli in philadelphia.
- was in on
- war am in
cmu 的tokenization: 利用乙個特殊的詞表來查詢,並且用了一些簡單的規則,根據他們的研究,如果雙語語料庫的規模能夠達到百萬數量對語句,對非限定領域的輸入就能夠達到比較好的覆蓋。基於語法樹庫進行的工作,半自動標註詞類。
4.研究內容
本文通過漢語和英語的語義詞典來計算詞的語義距離,進而計算語句的結構相似度,然後將相似語句的共同部分提取出來做為模板 的候選元素。漢語和英語的語義詞典分別是基於 wordnet和同義詞詞林。由於對自然語言的完全分析尚未達到很好的程度,本文試圖不對語言進行完全分析,直接從語料庫獲取翻譯模板,所用的方法基本和語言無關。
4.1詞的語義距離的計算和上位詞的獲取
採用語義詞典,根據詞的上下位來確定詞的語義距離英語採用漢語採用《同義詞詞林》
4.2語句結構相似度的計算
假設語句a和語句b分別有m和n 個詞,他們的詞相似度矩陣為:
dij為語句a的第i個詞和語句b的第j個詞的語義距離,根據此相似矩陣,我們可以計算兩個語句之間的相似度並且能夠提取他們的共同部分作為模板的侯選元素。計算方法如下(採用動態規劃)
4.3模板的提取
乙個翻譯模板對應於乙個分句或是短語,目前並不考慮模板的巢狀問題。計算得到語句相似度之後,將對相似度有貢獻的「詞對」作為兩個語句的相似
部分提取出來並結合語義詞典得到template candidates
將兩個語句的相似的部分提取出之後,取得他們的上位詞,作為最初的模板
5.研究的意義
在保證翻譯準確率的前提下提高了系統的匹配率,使更多的相似語句可以匹配。翻譯速度有了很大程度的提高,同時翻譯結果的重複利用性良好,模板的可讀性較好。例項庫的組織更加有條理,層次清晰,有利於擴充和檢索。
Google神經機器翻譯系統 要點備忘
現有nmt系統缺點 計算量大,難應對低頻詞 2 2015經典nmt 裡的模型,是 上一時刻隱藏層輸出s,上一時刻輸出層 詞的詞向量e y 和當前上下文向量c 這三者輸入到當前時刻lru單元中,得到當前時刻隱藏層輸出s 當前上下文向量c 是由encoder的所有時刻隱藏層輸出h的加權得到 各時刻權重a...
機器翻譯(待續)
機器翻譯 語言模型 翻譯模型 語言模型如 n元語言模型 n元語言模型 舉例,三元語言模型,乙個詞至於它相鄰的2個詞有關。條件概率 p 我吃飯 表示詞語組合合理的概率。p 我吃飯 p 飯 我吃 p 我吃 p 我吃 p 吃 我 p 我 得到 p 我吃飯 p 飯 我吃 p 吃 我 p 我 基礎統計概率這樣...
1958 機器翻譯
time limit 1 sec memory limit 128 mb submit 55 solved 28 submit status web board 小晨的電腦上安裝了乙個機器翻譯軟體,他經常用這個軟體來翻譯英語文章。這個翻譯軟體的原理很簡單,它只是從頭到尾,依次將每個英文單詞用對應的中...