tesseract的ocr引擎最先由hp實驗室於2023年開始研發,至2023年時已經成為ocr業內最準確的三款識別引擎之一。2023年,tesseract由美國內華達州資訊科技研究所獲得,並求諸於google對tesseract進行改進、消除bug、優化工作。tesseract目前已作為開源專案發布在google project.
執行環境:
windows10 + python 3.6 + tesseract 4.0.0-beta.1先看效果:
一、安裝python模組
pip3 install pytesseract二、安裝tesseract orc注意:安裝的時候選中中文包。
使用命令,檢視版本號和支援語言:
三、配置tesseract執行檔案
c:\python36\lib\site-packages\pytesseract\pytesseract.py 找到檔案:
tesseract_cmd = 'tesseract'修改為:
tesseract_cmd = 'c:/program files (x86)/tesseract-ocr/tesseract.exe'四、**識別
from pil import image
import pytesseract
path = "img\\text-img.png"
text = pytesseract.image_to_string(image.open(path), lang='chi_sim')
print(text)
作為非常優秀的ocr識別庫,tesseract當然可以訓練自己的資料模型,從而達到為我所用目的,後續文字會介紹如果訓練自己的文字識別庫。
我的github:
出處:
Tesseract OCR 玩轉OCR中文識別
一 準備工作 二 識別 1 進入cmd,進入到要識別的的路徑下。2 輸入命令 tesseract 名稱 生成的結果檔案的名稱 字型檔 tesseract test.jpg result l chi sim三 訓練資料1 將轉換成tif格式,用於後面生成box檔案。可以通過畫圖,然後另存為tif即可。...
Tesseract Ocr文字識別
tesseract的ocr引擎最先由hp實驗室於1985年開始研發,至1995年時已經成為ocr業內最準確的三款識別引擎之一。2005年,tesseract由美國內華達州資訊科技研究所獲得,並求諸於google對tesseract進行改進 消除bug 優化工作。tesseract目前已作為開源專案發...
Python Opencv KNN英文本母識別
特徵集分析 資料集為letter recognition.data,一共為20000條資料,以逗號分隔,資料例項如下所示,第一列為字母標記,剩下的為不同的特徵。t,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8 學習方法 1 讀入資料,並去除分隔號 2 將資料第一列作為標記,剩下...