機器翻譯 = 語言模型 + 翻譯模型
語言模型如:n元語言模型
n元語言模型
舉例,三元語言模型,乙個詞至於它相鄰的2個詞有關。
條件概率
p(我吃飯)表示詞語組合合理的概率。
p(我吃飯)= p(飯|我吃)*p(我吃)
p(我吃) = p( 吃|我)*p(我)
得到:p(我吃飯)= p(飯|我吃)*p(吃|我)*p(我);
基礎統計概率這樣得到:
[統計詞頻得到]
p(我)= c(我)/c(x) ;
p(吃|我)= c(我x)/ c(我吃)
p(飯|我吃)= c(我吃飯)/ c(我吃x)
在語音識別或者ocr中,如果識別三個字,前兩個識別為我吃,
單從第三個字的聲音來看,有40%的概率識別為「飯」,有50%的概率識別為「蛋」。
但是p(飯 | 我吃)的概率為50%,p(蛋|我吃)的概率為10%。
綜合考慮:
p(我吃飯)= p(飯)* p(飯 | 我吃)=40%*50%
p(我吃蛋)= p(蛋)* p(蛋|我吃) =50%*10%
所以該字被翻譯成飯更合適一些。
1958 機器翻譯
time limit 1 sec memory limit 128 mb submit 55 solved 28 submit status web board 小晨的電腦上安裝了乙個機器翻譯軟體,他經常用這個軟體來翻譯英語文章。這個翻譯軟體的原理很簡單,它只是從頭到尾,依次將每個英文單詞用對應的中...
機器翻譯彙總
史丹福大學的nlp 機器翻譯的專案 tf中的nmt專案 最新進展 facebook ai research convolutional sequence to sequence learning 該文章所提出的模型 簡稱convs2s 不僅僅在翻譯任務上效果顯著,而且所需訓練時間也很短。實現 pyt...
模擬 機器翻譯
大概題意 有m個單元均可存放一單詞。但出現單元裡面沒有的新單詞時,查詢一次,如果當前記憶體中已存入的單詞數不超過m 1,自動儲存在後面 若記憶體中已存入m個單詞,清空最早儲存的單詞,來存放新單詞。長度為n個單詞。需要查詢多少次詞典?思路很簡單,先暴力搜尋,沒有就考慮加入單元,沒滿直接加後面,滿了從已...