語言模型訓練

2021-09-09 07:53:15 字數 1539 閱讀 6381

模型訓練:

nohup ngram-count -text tieba.word.merged -order 4 -vocab ../words.txt  -kndiscount -interpolate -lm tieba.word.4gram.lm &
結果測試:

ngram -lm tieba.word.4gram.lm -ppl ../baidulabel300h_201811_dev.text.raw.merged
生成ppl檔案:

ngram -lm tieba.word.3gram_prune_5e-8.lm -debug 2 -ppl ../baidulabel300h_201811_dev.text.raw.merged >tieba.word.3gram_prune_5e-8.ppl
模型剪枝:

ngram -lm tieba.word.4gram.lm -prune 0.000000001 -write-lm tieba.word.4gram_prune_e-9.lm
計算最佳插值比例:

compute-best-mix lambda="0.99999, 0.00001 " tieba.word.4gram_prune_e-9.ppl baidu300.3gram.ppl
模型合併

##功能

#用於多個語言模型之間插值合併,以期望改善模型的效果

##引數

#模型插值:

# -mix-lm 用於插值的第二個ngram模型,-lm是第乙個ngram模型

# -lambda 主模型(-lm對應模型)的插值比例,0~1,預設是0.5

# -mix-lm2 用於插值的第三個模型

# -mix-lambda2 用於插值的第二個模型(-mix-lm對應的模型)的比例,那麼第二個模型的比例為1-lambda-mix-lambda2

# -vocab 當兩個模型的詞典不一樣的時候,使用該引數限制詞典列表,沒有效果

# -limit-vocab 當兩個模型的詞典不一樣的時候,使用該引數限制詞典列表,沒有效果

ngram -lm $ -order 2 -mix-lm $ -lambda 0.8 -write-lm $

kaldi中生成 arpa及fst格式語言模型

ngram-count -text ./data/kunpeng_threshold_-50.txt -order 5 -kndiscount -interpolate -lm ./data/lang_nosp_5gram/kunpeng_5gram.lm

arpa2fst --disambig-symbol=#0 --read-symbol-table=exp/chain/tdnn7q_sp/graph_eng_lm/words.txt data/lang_nosp_5gram/kunpeng_5gram.lm ./data/lang_nosp_5gram/g.fst

SRILM 語言模型訓練工具

2,安裝 make srilm pwd3,配置 將bin和bin i686 m64新增到path環境變數中 4,測試 ngram count help 5,海量語料訓練 由於對於大規模語料進行語言模型的訓練,經常會導致記憶體問題。經過測試,用srilm處理乙個3g的語料,訓練3元語言模型,32g記憶...

語言模型訓練工具SRILM

srilm的全稱是stanford research institute language modeling toolkit 他被用來構建和應用統計語言模型,主要用於語音識別,統計標註和切分,以及機器翻譯等工作。一 windows下編譯 ubuntu編譯,可以再52nlp中去找。vc編譯,可以再下面...

R語言 訓練隨機森林模型

隨機森林演算法涉及對樣本單元和變數進行抽樣,從而生成大量決策樹。對於每個樣本單元,所有決策樹依次對其進行分類,所有決策樹 類別中的眾數類別即為隨機森林所 的這一樣本單元的類別。假設訓練集中共有n個樣本單元,m個變數,則隨機森林演算法如下 1 從訓練集中隨機有放回地抽取n個樣本單元,生成大量決策樹 2...