關於tesseract字元訓練遇到的問題及解決方法

2021-07-04 07:01:54 字數 622 閱讀 6912

在ocr中,對字元訓練是必不可少的,但是,在訓練過程中,卻會遇到各種問題,我是小白鼠,剛剛接觸tesseract,我把我在做字元訓練過程中遇到的問題簡單描述一下與大家分享。如果有什麼不妥的地方,還請大家多多指教!

1、 我們的執行目錄一定要在所在的目錄下,這也是我們之後存放所生成的檔案的目錄。在做訓練之前,要建立乙個檔案font_properties ,檔名不能變,只能是font_properties,如果你建立的檔案是txt格式,或者是別的格式,建立好之後一定要把字尾去掉,如果不去掉,執行時會提示failed to load font_properties from font_properties或者是位置資訊錯誤或者是記憶體錯誤或者是執行時邏輯錯誤。

2、待識別的要嚴格按照命名規則命名,格式為lang.fontname.exp0.tif格式為tif或者tiff都可以,lang是我們自己定義的名稱,可以用任意詞代替,如果沒有按照格式命名,執行時會提示cannot open lang.fontname.exp0.tif

3、一些自動生成的檔案需要自己手動改字首名,自動生成的檔案都是字尾名,字首為lang,即是我們自己定義的名稱,上下一定要保持一致,否則會顯示檔案不存在。

Tesseract 資料訓練

1.merge合併樣本檔案生成字尾為.tif格式檔案khm.font.exp0.tif tool merge tiff jtessboxeditor工具 2.生成.box檔案khm.font.exp0.box 注意 l khm psm tesseract khm.font.exp0.tif khm....

tesseract訓練新字型檔

今天我要講一下如何生成新的識別庫 請注意 在您的電腦上安裝有tesseract軟體 和 jtessboxeditor軟體 系統為ubuntu jtessboxeditor 1.新建乙個資料夾test 該資料夾會儲存本次專案所有的檔案 將需要的字型檔放到test 目錄下,檔名為 lang 為語言 fo...

tesseract 3 02 訓練字型檔全解

最近看到google的tesseract ocr 的文章,深感興趣,就試了試具體實現方法。如果要識別非常規範的字母和數字,直接使用自帶的字型檔就足夠 但是若要識別一些非規則或者手寫的,就要訓練自己的字型檔。下面是我的一些步驟 1 首先準備兩個軟體 jtessboxeditor 2 建立乙個test資...