1. merge合併樣本檔案生成字尾為.tif格式檔案khm.font.exp0.tif
tool->merge tiff (jtessboxeditor工具)
2. 生成.box檔案khm.font.exp0.box (注意-l khm –psm)
tesseract khm.font.exp0.tif khm.font.exp0 -l khm –psm 7 batch.nochop makebox
3. 使用jtessboxeditor 開啟之前生成的.tif檔案
4. 修正調整並儲存
5. 利用.tif和.box檔案生成.lstmf檔案用於lstm訓練
tesseract khm.font.exp0.tif khm.font.exp0 -l khm --psm 7 lstm.train
6. 從已有的.traineddate中提取.lstm 檔案(khm語言資料)
combine_tessdata -e khm.traineddata khm.lstm
7. 建立乙個
khm.training_file.txt檔案,
裡面的內容為
.lstmf
檔案的路徑位址
8. 進行訓練
lstmtraining
--model_output="
\output"
--continue_from="
\khm.lstm"
--train_listfile="c\khm.training_files.txt"
--traineddata="
\khm.traineddata"
--debug_interval -1
--max_iterations 800
9. 將checkpoint檔案和.traineddata檔案合併成新的.traineddata
lstmtraining
--stop_training
--continue_from="
\output_checkpoint"
--traineddata="
\khm.traineddata"
--model_output="
\zth.traineddata"
10. 命令介紹 lstmtraining -help
幫助--modeloutput
模型訓練輸出的路徑(我在
new_05
資料夾中新建了乙個名為
output
的資料夾用來存輸出的檔案)
--continue_from
訓練從**繼續,這裡指定提取的khm.lstm檔案,
--train_listfile
指定上一步建立的檔案的路徑
--traineddata
--debug_interval
當值為-1
時,訓練結束,會顯示訓練的一些結果引數
--max_iterations
指明訓練遍歷次數
--stop_training
預設要有的
--continue_from
上一步生成的output_checkpoint檔案路徑
--traineddata
--model_output zth.traineddata
輸出的路徑
11. 將生成的
zth.traineddata
檔案複製到
tesseract-ocr\tessdata
路徑下12. tesseract –-list-langs檢視支援語言
13.執行
檢視識別結果
tesseract訓練新字型檔
今天我要講一下如何生成新的識別庫 請注意 在您的電腦上安裝有tesseract軟體 和 jtessboxeditor軟體 系統為ubuntu jtessboxeditor 1.新建乙個資料夾test 該資料夾會儲存本次專案所有的檔案 將需要的字型檔放到test 目錄下,檔名為 lang 為語言 fo...
關於tesseract字元訓練遇到的問題及解決方法
在ocr中,對字元訓練是必不可少的,但是,在訓練過程中,卻會遇到各種問題,我是小白鼠,剛剛接觸tesseract,我把我在做字元訓練過程中遇到的問題簡單描述一下與大家分享。如果有什麼不妥的地方,還請大家多多指教!1 我們的執行目錄一定要在所在的目錄下,這也是我們之後存放所生成的檔案的目錄。在做訓練之...
tesseract 3 02 訓練字型檔全解
最近看到google的tesseract ocr 的文章,深感興趣,就試了試具體實現方法。如果要識別非常規範的字母和數字,直接使用自帶的字型檔就足夠 但是若要識別一些非規則或者手寫的,就要訓練自己的字型檔。下面是我的一些步驟 1 首先準備兩個軟體 jtessboxeditor 2 建立乙個test資...