Android平台OCR工具之Tess two使用

ocr （optical character recognition，光學字元識別）是指電子裝置（例如掃瞄器或數位相機）檢查紙上列印的字元，通過檢測暗、亮的模式確定其形狀，然後用字元識別方法將形狀翻譯成計算機文字的過程；

tesseract是ray smith於1985到2023年間在惠普布里斯托實驗室開發的乙個ocr引擎，曾經在1995 unlv精確度測試中名列前茅。但2023年後基本停止了開發。2023年，google邀請smith加盟，重啟該專案。目前專案的許可證是apache 2.0。該專案目前支援windows、linux和mac os等主流平台。但作為乙個引擎，它只提供命令列工具。

現階段的tesseract由google負責維護，是最好的開源ocr engine之一，並且支援中文。

中文：chi-sim.traineddata

英文：eng.traineddata

tess-two在git上位址為：

我編譯使用的環境：

ndk環境的具體配置及cygwin的安裝方法可以參照這篇部落格：windows下android ndk環境搭建

編譯需要耗費挺長時間，編譯完成後，會在tess-two目錄下生成libs資料夾，其中包含了編譯生成的.so檔案，可以進行使用。

編譯完成後，新建工程，將之前編譯好的libs資料夾下的armeabi和armeabi-v7a資料夾拷貝至新建工程的libs資料夾下，將tess-two工程中src資料夾下的兩個包直接拷貝至**中或者打成jar進行使用。工程如下：

識別函式：

/**
* 識別中文字,需要放入非同步執行緒中進行執行
* *@param bitmap
*@return
*@throws ioexception
*/public string parseimagetostring(string imagepath) throws ioexception
// 獲取bitmap
bitmapfactory.options options = new bitmapfactory.options();
options.insamplesize = 2;
bitmap bitmap = bitmapfactory.decodefile(imagepath, options);
// 旋轉角度
int rotate = 0;
exifinte***ce exif = new exifinte***ce(imagepath);
// 先獲取當前影象的方向，判斷是否需要旋轉
int imageorientation = exif
.getattributeint(exifinte***ce.tag_orientation,
exifinte***ce.orientation_normal);
log.i(tag, "current image orientation is " + imageorientation);
switch (imageorientation)
log.i(tag, "current image need rotate: " + rotate);
// 獲取當前的寬和高
int w = bitmap.getwidth();
int h = bitmap.getheight();
// 使用matrix對進行處理
matrix mtx = new matrix();
mtx.prerotate(rotate);
// 旋轉
bitmap = bitmap.createbitmap(bitmap, 0, 0, w, h, mtx, false);
bitmap = bitmap.copy(bitmap.config.argb_8888, true);
// 開始呼叫tess函式對影象進行識別
tessbaseapi baseapi = new tessbaseapi();
baseapi.setdebug(true);
// 使用預設語言初始化baseapi
baseapi.init(tessconstantconfig.tessbase_path,
tessconstantconfig.default_language_chi);
baseapi.setimage(bitmap);
// 獲取返回值
string recognizedtext = baseapi.getutf8text();
baseapi.end();
return recognizedtext;
}

經過測試，發現tess-two的識別率不是很高，對一般電腦輸入文字生成的，識別度較高，但對於手寫問題，識別率較低，可能需要進一步進行訓練。下邊是我識別的結果截圖：

總結tess-two的使用方法，大致可分為以下幾步：

新建工程測試，訓練

我是**

Android平台OCR工具之Tess two使用

OCR文字捕獲工具

手機平台人像識別ocr技術

OCR雲識別之雲識別OCR

Android平台OCR工具之Tess two使用

OCR文字捕獲工具

手機平台人像識別ocr技術

OCR雲識別之雲識別OCR

相關推薦