Tesseract OCR 玩轉OCR中文識別

一、準備工作：

二、識別

1、進入cmd，進入到要識別的的路徑下。

2、輸入命令

tesseract 名稱生成的結果檔案的名稱字型檔

tesseract test.jpg result -l chi_sim

三、訓練資料1、將轉換成tif格式，用於後面生成box檔案。可以通過畫圖，然後另存為tif即可。

更改名字，這個是有要求的=。=

tif文面命名格式[lang].[fontname].exp[num].tif

lang是語言 fontname是字型

比如我們要訓練自定義字型檔 mjorcen字型名normal

那麼我們把檔案重新命名 mjorcen.normal.exp0.jpg在轉tif。

2、生成box檔案。

box檔案和對應的tif一定要在相同的目錄下，不然後面打不開。

3、開啟jtessboxeditor矯正錯誤並訓練

開啟train.bat

找到tif圖，開啟，並校正。

4、訓練。

新建乙個font_properties檔案

裡面內容寫入 normal 0 0 0 0 0 表示預設普通字型

shapeclustering -f font_properties -u unicharset mjorcen.normal .exp0.tr

mftraining -f font_properties -u unicharset -o unicharset mjorcen.normal .exp0.tr

cntraining mjorcen.normal .exp0.tr

最後會生成五個檔案，把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個檔案前面都加上normal.

如圖：

命令列輸入，合併五個檔案：

combine_tessdata normal.

得到訓練好的字型檔。

五、測試

1、把 normal.traineddata 複製到tesseract-ocr 安裝目錄下的tessdata資料夾中

2、識別命令：

識別成功，效果：

3、pycharm 程式實現

u'總共耗時：' + str(time2 - time1) + 's'

Tesseract OCR引擎入門

ocr optical character recognition 光學字元識別,是指對檔案中的文字進行分析識別，獲取的過程。tesseract 開源的ocr識別引擎，初期tesseract引擎由hp實驗室研發，後來貢獻給了開源軟體業，後經由google進行改進，消除bug，優化，重新發布。當前版本...

Tesseract OCR 玩轉OCR中文識別

Tesseract OCR引擎 入門

Tesseract OCR引擎 入門

Tesseract OCR引擎 入門

相關推薦

Tesseract OCR引擎入門

Tesseract OCR引擎入門

Tesseract OCR引擎入門