tesseract-ocr有2和3兩個版本,不同版本訓練方法稍有不同。
第3版本的訓練方法官版教程在這裡:trainingtesseract3
第2版的訓練方法官版教程在這裡:trainingtesseract
我使用的是最新的3.01版本的。訓練所需準備:
3.一張用來訓練的tiff格式。
在不通過訓練的前提下,使用tesseract來識別乙個訂單號的內容,如圖
發現錯誤率很高,希望通過訓練來提高準確率。
訓練過程:
1.通過合併10張如上圖的合併為一張tiff格式的,如何合併呢?通過jtessboxeditor的merge tiff 來完成,不過他的小缺點就是只能合併多張tiff格式的,如果你的是jpg的,需要先轉換。生成後的tiff叫做orderno.tif
2.make box files。在orderno.tif所在的目錄下開啟乙個命令列,輸入:
e:\tesseract-ocr\tesseract.exe orderno.tif orderno batch.nochop makebox來生成乙個box檔案,該檔案記錄了tesseract識別出來的每乙個字和其位置座標。
3.使用jtessboxeditor開啟orderno.tif檔案,需要記住的是第2步生成的orderno.box要和這個orderno.tif檔案同在乙個目錄下。逐個校正文字,後儲存。
4.run tesseract for training。輸入命令:
e:\tesseract-ocr\tesseract.exe orderno.tif orderno nobatch box.train5.compute the character set。輸入命令:
e:\tesseract-ocr\unicharset_extractor.exe orderno.box6.新建檔案「font_properties」。如果是3.01版本,那麼需要在目錄下新建乙個名字為「font_properties」的檔案,並且輸入文字 :
orderno 0 0 0 0 0大致意思就是說orderno這個語言的字型為普通字型。
並執行命令:
e:\tesseract-ocr\mftraining.exe -f font_properties -u unicharset orderno.tr7.clustering。輸入命令:
e:\tesseract-ocr\cntraining.exe orderno.tr8.此時,在目錄下應該生成若干個檔案了,把unicharset, inttemp, normproto, pffmtable這四個檔案加上字首「orderno.」。然後輸入命令:
e:\tesseract-ocr\combine_tessdata.exe orderno.會顯示乙個結果如:
combining tessdata files必須確定的是第2、4、5、6行的資料不是-1,那麼乙個新的字典就算生成了。tessdatamanager combined tesseract data files.
offset for type 0 is -1
offset for type 1 is 108
offset for type 2 is -1
offset for type 3 is 1660
offset for type 4 is 327545
offset for type 5 is 327781
offset for type 6 is -1
offset for type 7 is -1
offset for type 8 is -1
offset for type 9 is -1
offset for type 10 is -1
offset for type 11 is -1
offset for type 12 is –1
此時目錄下「orderno.traineddata」的檔案拷貝到tesseract程式目錄下的「tessdata」目錄。
以後就可以使用該該字典來識別了,例如:
通過訓練出來的新語言,識別率提高了不少。
Tesseract OCR字元訓練工具及方法
主題 概要tesseract ocr tesseract ocr訓練工具 編輯時間 新建20161008 更正訓練步驟序號 20161225 序號參考資料 第一張是比較正規的,下面主要以它們為例講解這個工具的實現思路。網上關於tesseract ocr的訓練工具都是清一色的jtessboxedito...
Tesseract OCR識別中文與訓練字型檔例項
主要參考 關於中文的識別,效果不一定會好一些但是開源的應該就是tesseract ocr了,所以自己親身試用一下,分享到部落格讓有同樣興趣的人少走彎路。一 準備工作 二 識別 1 進入cmd,進入到要識別的的路徑下。2 輸入命令 1 tesseract 名稱 生成的結果檔案的名稱 字型檔 例如我的識...
Tesseract OCR的簡單使用與訓練
原文 tesseract,一款由hp實驗室開發由google維護的開源ocr optical character recognition 光學字元識別 引擎,與microsoft office document imaging modi 相比,我們可以不斷的訓練的庫,使影象轉換文字的能力不斷增強 如...