tesseract orc 合併識別結果

2022-08-22 15:15:19 字數 2827 閱讀 5840

在實際使用 tesseract-orc 識別庫的時候,初次製作的識別庫很有可能識別率不太理想,需要後期慢慢補充

本文演示如何將多個修正過的box檔案合併成乙個識別庫。

首先,需要樣本.tif檔案,位置檔案.box ,只要有這兩個檔案在,就可以合併字典

image.font.1.tif image.font.1.box

image.font.2.tif image.font.2.box

image.font.3.fit image.font.3.box

1、先生成相對應的 .tr 檔案

tesseract image.font.1.tif image.font.1 nobatch box.train

tesseract image.font.2.tif image.font.2 nobatch box.train

tesseract image.font.3.tif image.font.3 nobatch box.train

2、提取字元

unicharset_extractor image.font.1.box image.font.2.box image.font.3.box

3、生成字型特徵檔案

新建 font_properties 檔案(注意沒有字尾名)把所有box檔案對應的字型特徵都加進去

font 0 0 0 0 0

4、執行如下命令

mftraining -f font -u unicharset image.font.1.tr image.font.2.tr image.font.3.tr

5、聚集所有.tr 檔案

cntraining image.font.1.tr image.font.2.tr image.font.3.tr

6、重新命名檔案

將如下檔案重新命名,在前面增加字型的名稱,這裡我使用【ck】

unicharset

inttemp

normproto

pfftable

shapetable ---- 很多教程都漏了這個檔案,不改這個檔案建立識別庫的時候會報錯。

重新命名後各檔名如下

ck.unicharset

ck.inttemp

ck.normproto

ck.pfftable

ck.shapetable ---- 很多教程都漏了這個檔案,不改這個檔案建立識別庫的時候會報錯。

7、合併所有檔案 生成乙個大的字型檔檔案

combine_tessdata ck.

打完收工

在實際使用 tesseract-orc 識別庫的時候,初次製作的識別庫很有可能識別率不太理想,需要後期慢慢補充

本文演示如何將多個修正過的box檔案合併成乙個識別庫。

首先,需要樣本.tif檔案,位置檔案.box ,只要有這兩個檔案在,就可以合併字典

image.font.1.tif image.font.1.box

image.font.2.tif image.font.2.box

image.font.3.fit image.font.3.box

1、先生成相對應的 .tr 檔案

tesseract image.font.1.tif image.font.1 nobatch box.train

tesseract image.font.2.tif image.font.2 nobatch box.train

tesseract image.font.3.tif image.font.3 nobatch box.train

2、提取字元

unicharset_extractor image.font.1.box image.font.2.box image.font.3.box

3、生成字型特徵檔案

新建 font_properties 檔案(注意沒有字尾名)把所有box檔案對應的字型特徵都加進去

font 0 0 0 0 0

4、執行如下命令

mftraining -f font -u unicharset image.font.1.tr image.font.2.tr image.font.3.tr

5、聚集所有.tr 檔案

cntraining image.font.1.tr image.font.2.tr image.font.3.tr

6、重新命名檔案

將如下檔案重新命名,在前面增加字型的名稱,這裡我使用【ck】

unicharset

inttemp

normproto

pfftable

shapetable ---- 很多教程都漏了這個檔案,不改這個檔案建立識別庫的時候會報錯。

重新命名後各檔名如下

ck.unicharset

ck.inttemp

ck.normproto

ck.pfftable

ck.shapetable ---- 很多教程都漏了這個檔案,不改這個檔案建立識別庫的時候會報錯。

7、合併所有檔案 生成乙個大的字型檔檔案

combine_tessdata ck.

打完收工

再識今目標

認真的檢視了我的今目標使用情況,看到了我們一路走來的點點滴滴。發現我們已經使用今目標2年多了 2012.06.24開始 很驚訝!為什麼會這樣?乙個使用了2年多的工具 學習小助手應該更貼切些 到現在我還沒有將它融合到我們的生活中。或者說,沒有真正認識到它在我的學習歷程中地位。2年的成長,誰在為我們見證...

DeepFace Facebook的人臉識別

連續看了deepid和facenet後,看了更早期的一篇 即fb的deepface。這篇 早於deepid和facenet,但其所使用的方法在後面的 中都有體現,可謂是早期的奠基之作。因而特寫博文以記之。人臉識別的基本流程是 detect align represent classify分為如下幾步...

重識物件導向

最近的學習進行到了uml階段。上來的第一節課就是講的物件導向。很早以前公尺老師上課的時候就給我們講過了,雖然只是簡單的講解,但現在看起來還是讓我覺得受益匪淺。現在來談談我自己的理解 物件導向是一種軟體開發方法,是一種對現實世界理解和抽象的方法。既然是物件導向。那這個物件是什麼呢?物件其實就是我們要進...