tesseract ocr訓練方法

tesseract-ocr有2和3兩個版本，不同版本訓練方法稍有不同。

第3版本的訓練方法官版教程在這裡：trainingtesseract3

第2版的訓練方法官版教程在這裡：trainingtesseract

我使用的是最新的3.01版本的。訓練所需準備：

3.一張用來訓練的tiff格式。

在不通過訓練的前提下，使用tesseract來識別乙個訂單號的內容，如圖

發現錯誤率很高，希望通過訓練來提高準確率。

訓練過程：

1.通過合併10張如上圖的合併為一張tiff格式的，如何合併呢？通過jtessboxeditor的merge tiff 來完成，不過他的小缺點就是只能合併多張tiff格式的，如果你的是jpg的，需要先轉換。生成後的tiff叫做orderno.tif

2.make box files。在orderno.tif所在的目錄下開啟乙個命令列，輸入：

e:\tesseract-ocr\tesseract.exe orderno.tif orderno batch.nochop makebox

來生成乙個box檔案，該檔案記錄了tesseract識別出來的每乙個字和其位置座標。

3.使用jtessboxeditor開啟orderno.tif檔案，需要記住的是第2步生成的orderno.box要和這個orderno.tif檔案同在乙個目錄下。逐個校正文字，後儲存。

4.run tesseract for training。輸入命令：

e:\tesseract-ocr\tesseract.exe orderno.tif orderno nobatch box.train

5.compute the character set。輸入命令：

e:\tesseract-ocr\unicharset_extractor.exe orderno.box

6.新建檔案「font_properties」。如果是3.01版本，那麼需要在目錄下新建乙個名字為「font_properties」的檔案，並且輸入文字 :

orderno 0 0 0 0 0

大致意思就是說orderno這個語言的字型為普通字型。

並執行命令：

e:\tesseract-ocr\mftraining.exe -f font_properties -u unicharset orderno.tr

7.clustering。輸入命令：

e:\tesseract-ocr\cntraining.exe orderno.tr

8.此時，在目錄下應該生成若干個檔案了，把unicharset, inttemp, normproto, pffmtable這四個檔案加上字首「orderno.」。然後輸入命令：

e:\tesseract-ocr\combine_tessdata.exe orderno.

會顯示乙個結果如：

combining tessdata files

tessdatamanager combined tesseract data files.

offset for type 0 is -1

offset for type 1 is 108

offset for type 2 is -1

offset for type 3 is 1660

offset for type 4 is 327545

offset for type 5 is 327781

offset for type 6 is -1

offset for type 7 is -1

offset for type 8 is -1

offset for type 9 is -1

offset for type 10 is -1

offset for type 11 is -1

offset for type 12 is –1

必須確定的是第2、4、5、6行的資料不是-1，那麼乙個新的字典就算生成了。

此時目錄下「orderno.traineddata」的檔案拷貝到tesseract程式目錄下的「tessdata」目錄。

以後就可以使用該該字典來識別了，例如：

通過訓練出來的新語言，識別率提高了不少。

Tesseract OCR字元訓練工具及方法

主題概要tesseract ocr tesseract ocr訓練工具編輯時間新建20161008 更正訓練步驟序號 20161225 序號參考資料第一張是比較正規的，下面主要以它們為例講解這個工具的實現思路。網上關於tesseract ocr的訓練工具都是清一色的jtessboxedito...

Tesseract OCR識別中文與訓練字型檔例項

主要參考關於中文的識別，效果不一定會好一些但是開源的應該就是tesseract ocr了，所以自己親身試用一下，分享到部落格讓有同樣興趣的人少走彎路。一準備工作二識別 1 進入cmd，進入到要識別的的路徑下。2 輸入命令 1 tesseract 名稱生成的結果檔案的名稱字型檔例如我的識...

Tesseract OCR的簡單使用與訓練

原文 tesseract，一款由hp實驗室開發由google維護的開源ocr optical character recognition 光學字元識別引擎，與microsoft office document imaging modi 相比，我們可以不斷的訓練的庫，使影象轉換文字的能力不斷增強如...

tesseract ocr訓練方法

Tesseract OCR字元訓練工具及方法

Tesseract OCR識別中文與訓練字型檔例項

Tesseract OCR的簡單使用與訓練

相關推薦