為了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字型
比如我們要訓練自定義字型檔 image 字型名myfont
那麼我們把tif檔案重新命名 image.myfont.exp0.tif
下面開始訓練字型檔:
1、tesseract image.myfont.exp0.tif image.myfont.exp0 -l chi_sim batch.nochop makebox
該步驟會生成乙個image.myfont.exp0.box檔案
把tif檔案和box檔案放在同一目錄,用jtessboxeditor.jar開啟tif檔案,然後根據實際情況修改box檔案
2、tesseract image.myfont.exp0.tif image.myfont.exp0 nobatch box.train
該步驟生成乙個image.myfont.exp0.tr檔案
3、unicharset_extractor image.myfont.exp0.box
該步驟生成乙個unicharset檔案
4、新建乙個font_properties檔案
裡面內容寫入myfont 0 0 0 0 0 表示預設普通字型
5、執行命令
shapeclustering -f font_properties -u unicharset image.myfont.exp0.tr
mftraining -f font_properties -u unicharset -o image.unicharset image.myfont.exp0.tr
cntraining image.myfont.exp0.tr
6、把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個檔案前面都加上image.
7、執行combine_tessdata image.
然後把image.traineddata放到tessdata目錄
8、用新的字型檔對進行分析
tesseract test.tif output -l image
tesseract 3 02 訓練字型檔全解
最近看到google的tesseract ocr 的文章,深感興趣,就試了試具體實現方法。如果要識別非常規範的字母和數字,直接使用自帶的字型檔就足夠 但是若要識別一些非規則或者手寫的,就要訓練自己的字型檔。下面是我的一些步驟 1 首先準備兩個軟體 jtessboxeditor 2 建立乙個test資...
tesseract 識別中文字元
在tesseract目錄下,有個tesseract.exe檔案,主要呼叫這個執行檔案,用cmd執行到這個目錄下,在這個目錄下同時放置一張需要識別的,這裡是123.jpg 然後執行 tesseract 123.jpg result 會把123.jpg自動識別並轉換為txt檔案到result.txt 然...
linux中安裝中文字型
可能是因為在安裝linux的過程中忘記了選擇支援中文,所以機器在安裝完之後從mozzila訪問中文 全是亂碼,在 檢視 選單中即使選擇gbk的編碼字符集也無效,另外在shell中的中文也為亂碼,openoffice開啟之後也全為亂碼。重灌機器是個苦差事,不想那樣做。於是我選擇了對其進行漢化。第一步 ...