Tesseract Ocr文字識別

tesseract的ocr引擎最先由hp實驗室於2023年開始研發，至2023年時已經成為ocr業內最準確的三款識別引擎之一。2023年，tesseract由美國內華達州資訊科技研究所獲得，並求諸於google對tesseract進行改進、消除bug、優化工作。tesseract目前已作為開源專案發布在google project.

執行環境：

windows10 + python 3.6 + tesseract 4.0.0-beta.1

先看效果：

一、安裝python模組

pip3 install pytesseract

二、安裝tesseract orc注意：安裝的時候選中中文包。

使用命令，檢視版本號和支援語言：

三、配置tesseract執行檔案

c:\python36\lib\site-packages\pytesseract\pytesseract.py 找到檔案：

tesseract_cmd = 'tesseract'

修改為：

tesseract_cmd = 'c:/program files (x86)/tesseract-ocr/tesseract.exe'

四、**識別

from pil import image
import pytesseract
path = "img\\text-img.png"
text = pytesseract.image_to_string(image.open(path), lang='chi_sim')
print(text)

作為非常優秀的ocr識別庫，tesseract當然可以訓練自己的資料模型，從而達到為我所用目的，後續文字會介紹如果訓練自己的文字識別庫。

我的github：

出處：

Tesseract OCR 玩轉OCR中文識別

一準備工作二識別 1 進入cmd，進入到要識別的的路徑下。2 輸入命令 tesseract 名稱生成的結果檔案的名稱字型檔 tesseract test.jpg result l chi sim三訓練資料1 將轉換成tif格式，用於後面生成box檔案。可以通過畫圖，然後另存為tif即可。...

Tesseract Ocr文字識別

tesseract的ocr引擎最先由hp實驗室於1985年開始研發，至1995年時已經成為ocr業內最準確的三款識別引擎之一。2005年，tesseract由美國內華達州資訊科技研究所獲得，並求諸於google對tesseract進行改進消除bug 優化工作。tesseract目前已作為開源專案發...

Python Opencv KNN英文本母識別

特徵集分析資料集為letter recognition.data，一共為20000條資料，以逗號分隔，資料例項如下所示，第一列為字母標記，剩下的為不同的特徵。t,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8 學習方法 1 讀入資料，並去除分隔號 2 將資料第一列作為標記，剩下...

Tesseract Ocr文字識別

Tesseract OCR 玩轉OCR中文識別

Tesseract Ocr文字識別

Python Opencv KNN英文本母識別

相關推薦