一、準備工作:
二、識別
1、進入cmd,進入到要識別的的路徑下。
2、輸入命令
tesseract 名稱 生成的結果檔案的名稱 字型檔
tesseract test.jpg result -l chi_sim
三、訓練資料1、將轉換成tif格式,用於後面生成box檔案。可以通過畫圖,然後另存為tif即可。
更改名字,這個是有要求的=。=
tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字型
比如我們要訓練自定義字型檔 mjorcen字型名normal
那麼我們把檔案重新命名 mjorcen.normal.exp0.jpg在轉tif。
2、生成box檔案。
box檔案和對應的tif一定要在相同的目錄下,不然後面打不開。
3、開啟jtessboxeditor矯正錯誤並訓練
開啟train.bat
找到tif圖,開啟,並校正。
4、訓練。
新建乙個font_properties檔案
裡面內容寫入 normal 0 0 0 0 0 表示預設普通字型
shapeclustering -f font_properties -u unicharset mjorcen.normal
.exp0.tr
mftraining -f font_properties -u unicharset -o unicharset mjorcen.normal
.exp0.tr
cntraining mjorcen.normal
.exp0.tr
最後會生成五個檔案,把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個檔案前面都加上normal.
如圖:
命令列輸入,合併五個檔案:
combine_tessdata normal.
得到訓練好的字型檔。
五、測試
1、把 normal.traineddata 複製到tesseract-ocr 安裝目錄下的tessdata資料夾中
2、識別命令:
識別成功,效果:
3、pycharm 程式實現
u'總共耗時:' + str(time2 - time1) + 's'
Tesseract OCR引擎 入門
ocr optical character recognition 光學字元識別,是指對檔案中的文字進行分析識別,獲取的過程。tesseract 開源的ocr識別引擎,初期tesseract引擎由hp實驗室研發,後來貢獻給了開源軟體業,後經由google進行改進,消除bug,優化,重新發布。當前版本...
Tesseract OCR引擎 入門
ocr optical character recognition 光學字元識別,是指對檔案中的文字進行分析識別,獲取的過程。tesseract 開源的ocr識別引擎,初期tesseract引擎由hp實驗室研發,後來貢獻給了開源軟體業,後經由google進行改進,消除bug,優化,重新發布。當前版本...
Tesseract OCR引擎 入門
ocr optical character recognition 光學字元識別,是指對檔案中的文字進行分析識別,獲取的過程。tesseract 開源的ocr識別引擎,初期tesseract引擎由hp實驗室研發,後來貢獻給了開源軟體業,後經由google進行改進,消除bug,優化,重新發布。當前版本...