Tesseract 資料訓練

2021-10-02 07:43:08 字數 2787 閱讀 8780

1. merge合併樣本檔案生成字尾為.tif格式檔案khm.font.exp0.tif

tool->merge tiff  (jtessboxeditor工具)

2. 生成.box檔案khm.font.exp0.box (注意-l khm –psm)

tesseract khm.font.exp0.tif khm.font.exp0 -l khm –psm 7 batch.nochop makebox

3. 使用jtessboxeditor 開啟之前生成的.tif檔案

4. 修正調整並儲存

5. 利用.tif和.box檔案生成.lstmf檔案用於lstm訓練

tesseract khm.font.exp0.tif khm.font.exp0 -l khm --psm 7 lstm.train

6. 從已有的.traineddate中提取.lstm 檔案(khm語言資料)

combine_tessdata -e khm.traineddata khm.lstm

7. 建立乙個

khm.training_file.txt檔案,

裡面的內容為

.lstmf

檔案的路徑位址

8. 進行訓練

lstmtraining

--model_output="

\output"

--continue_from="

\khm.lstm"

--train_listfile="c\khm.training_files.txt"

--traineddata="

\khm.traineddata"

--debug_interval -1

--max_iterations 800

9. 將checkpoint檔案和.traineddata檔案合併成新的.traineddata

lstmtraining

--stop_training

--continue_from="

\output_checkpoint"

--traineddata="

\khm.traineddata"

--model_output="

\zth.traineddata"

10. 命令介紹 lstmtraining -help

幫助--modeloutput

模型訓練輸出的路徑(我在

new_05

資料夾中新建了乙個名為

output

的資料夾用來存輸出的檔案)

--continue_from

訓練從**繼續,這裡指定提取的khm.lstm檔案,

--train_listfile

指定上一步建立的檔案的路徑

--traineddata

--debug_interval

當值為-1

時,訓練結束,會顯示訓練的一些結果引數

--max_iterations

指明訓練遍歷次數

--stop_training

預設要有的

--continue_from

上一步生成的output_checkpoint檔案路徑

--traineddata

--model_output zth.traineddata

輸出的路徑

11. 將生成的

zth.traineddata

檔案複製到

tesseract-ocr\tessdata

路徑下12. tesseract –-list-langs檢視支援語言

13.執行

檢視識別結果

tesseract訓練新字型檔

今天我要講一下如何生成新的識別庫 請注意 在您的電腦上安裝有tesseract軟體 和 jtessboxeditor軟體 系統為ubuntu jtessboxeditor 1.新建乙個資料夾test 該資料夾會儲存本次專案所有的檔案 將需要的字型檔放到test 目錄下,檔名為 lang 為語言 fo...

關於tesseract字元訓練遇到的問題及解決方法

在ocr中,對字元訓練是必不可少的,但是,在訓練過程中,卻會遇到各種問題,我是小白鼠,剛剛接觸tesseract,我把我在做字元訓練過程中遇到的問題簡單描述一下與大家分享。如果有什麼不妥的地方,還請大家多多指教!1 我們的執行目錄一定要在所在的目錄下,這也是我們之後存放所生成的檔案的目錄。在做訓練之...

tesseract 3 02 訓練字型檔全解

最近看到google的tesseract ocr 的文章,深感興趣,就試了試具體實現方法。如果要識別非常規範的字母和數字,直接使用自帶的字型檔就足夠 但是若要識別一些非規則或者手寫的,就要訓練自己的字型檔。下面是我的一些步驟 1 首先準備兩個軟體 jtessboxeditor 2 建立乙個test資...