Moses 解碼工作原理研究 短語表

2021-06-15 01:47:08 字數 2622 閱讀 5916

短語表片斷:

this is ||| 領 用 ||| 0.000977302 4.27099e-06 8.07779e-05 3.56845e-09 2.718 ||| 0-0 1-1 ||| 365 4416 1

this is ||| 首先 ||| 0.000143721 1.81006e-05 8.07779e-05 2.15e-05 2.718 ||| 0-0 ||| 2482 4416 1

this is ||| 高速 快取 , 由 ||| 0.178358 0.000156158 8.07779e-05 8.03423e-12 2.718 ||| 1-3 ||| 2 4416 1

this is ||| 預設 為 ||| 0.000342009 0.000103925 8.07779e-05 1.16731e-05 2.718 ||| 0-0 1-1 ||| 1043 4416 1

this is ||| 預設 情況 ||| 0.00990875 2.07171e-05 8.07779e-05 3.97593e-07 2.718 ||| 0-0 1-1 ||| 36 4416 1

this is a ||| ) 也 有 ||| 0.356715 6.55787e-06 0.000413343 4.63203e-07 2.718 ||| 0-1 1-1 2-2 ||| 1 863 1

this is a ||| , ||| 5.28629e-07 8.32117e-07 0.000413343 0.0157819 2.718 ||| 1-0 ||| 674793 863 1

this is a ||| , 所以 這種 方式 ||| 0.178358 0.000431557 0.000413343 6.64195e-10 2.718 ||| 0-2 1-3 ||| 2 863 1

this is a ||| , 所以 這種 方式 的 ||| 0.178358 0.000431557 0.000413343 1.56475e-10 2.718 ||| 0-2 1-3 ||| 2 863 1

this is a ||| , 此 ||| 0.000147647 0.0017932 0.000413343 0.0422938 2.718 ||| 0-1 ||| 2416 863 1

this is a ||| , 由 兩 ||| 0.178358 1.70212e-08 0.000413343 3.81715e-09 2.718 ||| 1-1 2-2 ||| 2 863 1

this is a ||| , 緊接著 會 出現 ||| 0.178358 1.23145e-05 0.000413343 5.77379e-12 2.718 ||| 1-2 2-3 ||| 2 863 1

this is a ||| , 這 ||| 0.000203519 0.00122255 0.000965008 0.0161279 2.718 ||| 0-1 ||| 4092 863 2

其中,紅色的部分是概率,按順序說明如下:

1 - inverse phrase translation probability, 反向短語翻譯概率

2 - inverse lexical weighting,反向詞彙化加權

3 - direct phrase translation probability, 正向短語翻譯概率

4 - direct lexical weighting,正向詞彙化加權

5 - phrase penalty (always exp(1) = 2.718),短語懲罰,小於一傾向於選擇數量少(較長的)短語,大於一傾向於選擇數量多(較短的)短語

粉色的部分是詞對齊

綠色的部分是短語在語料中的頻率

看了一下,老版本的moses, 短語表在記憶體中大概是這個樣子:

obj0

||------this

|         |-----is

|         |     |----a

|         |     |-----collections("this is a" 的所有對應翻譯)

|         |              |-----這是乙個

|         |              |-----這是一

|         |              |-----這是一種

|         |              |。。。

|         |---- collections ("this is" 的所有對應翻譯)

|                  |---這是

|                  |---這個

|                  |---。。。

|                  

|-----collections("this" 的所有對應翻譯)

|----這

|----此

|----。。。

obj1

||------is

|-----collections("is" 的所有對應翻譯)

|----是

|----近

|----。。。

obj2

||------a

|-----collections("a" 的所有對應翻譯)

|----乙個

|----一種

|----。。。

CAN BUS CRC解碼原理介紹

1.目的 crc檢查是針對突發性 單一位元或奇數個位元錯誤進行檢查的動作,已表示資料傳輸的過程中是否錯誤。2.工作原理 crc主要的運作方式是將資料位元 d x 除以多項式 g x 進行運算,不同的 crc檢查則有不同的多項式 g x 產生,經過除法運算後可得知餘數 r x 來進行判斷。3.運算規範...

Jetty原理研究

1 jetty的啟動方式。jetty主要有兩種啟動方式,單執行緒和雙線程啟動。單執行緒啟動,也叫做嵌入式啟動。主要先通過啟動容器server,然後設定connector 設定系統連線埠,處理分發請求 設定處理器handler 也就是設定具體的應用程式處理 server容器預設開啟的執行緒池配置。je...

Android編碼解碼及其原理

概念 編碼解碼就是使用特定的演算法,將資料進行處理,形成資料的另外一種表現形式,編碼後的資料可以使用解碼演算法還原出原始資料。將位元組陣列編碼,返回為string base64.encodetostring byte bs,int flag 將位元組陣列編碼,返回位元組陣列 base64.encod...