今天我要講一下如何生成新的識別庫
請注意:在您的電腦上安裝有tesseract軟體 和 jtessboxeditor軟體 系統為ubuntu
jtessboxeditor:
1.新建乙個資料夾test 該資料夾會儲存本次專案所有的檔案
將需要的字型檔放到test
目錄下,檔名為
lang 為語言
fond
為字型 我們用的是
這個檔案需要自己生成。
2.生成
box檔案。
該操作將會生成chi.test.exp0.box檔案。這個檔案描述了裡所有字的框架
3.下面我們就要編輯這個box
檔案
可以看出來檔案識別多錯了,並且文字框架也有不對的,所以我們要對所有的框架編輯。
修改成這樣。中文先用拼音代替。因為這個軟體不能打中文。
將裡面的拼音改成中文
4.執行tesseract chi
這一步生成chi.test.exp0.tr檔案
5.執行unicharset_extractor chi.test.exp0.box
這一步生成unicharset檔案
6.下面就要新建字型檔案
font_properties 檔案內容為test100
107.執行 shapeclustering -f font_properties -u unicharset chi.test.exp0.tr
生成shapetable檔案
8.執行mftraining -f font_properties -u unicharset -o chi.unicharset chi.test.exp0.tr
生成chi.unicharset inttemp這兩個檔案。
9.執行cntraining chi.test.exp0.tr
生成normproto這個檔案
10.下面就要合併這些檔案了,生成乙個字型庫
在inttemp normproto pffmtable加上字首chi.
執行combine_tessdata chi.
(注意chi
後面的那個點必須要輸入的)
如果第2.4.5.6
行不為0.
那麼就算生成了字型庫檔案。
11.測試生成的字型庫檔案。
開啟out.txt
還有一些識別錯誤,需要優化。
tesseract 3 02 訓練字型檔全解
最近看到google的tesseract ocr 的文章,深感興趣,就試了試具體實現方法。如果要識別非常規範的字母和數字,直接使用自帶的字型檔就足夠 但是若要識別一些非規則或者手寫的,就要訓練自己的字型檔。下面是我的一些步驟 1 首先準備兩個軟體 jtessboxeditor 2 建立乙個test資...
Tesseract 資料訓練
1.merge合併樣本檔案生成字尾為.tif格式檔案khm.font.exp0.tif tool merge tiff jtessboxeditor工具 2.生成.box檔案khm.font.exp0.box 注意 l khm psm tesseract khm.font.exp0.tif khm....
將jTessBoxEditor訓練的字型檔合併
整合環境 win10,jtessboxeditor 1.7.3 1.需要生成字符集的.tif和.box這倆個檔案。假設 需要合併三個字典liu.宋體.exp0,liu1.微軟雅黑light.exp0,micrsoft.microsoftyaheiuilight.exp0 注 個人生成的字典有個人的名...