Mac上tesseract OCR的安裝配置

2021-08-20 11:11:48 字數 1444 閱讀 5967

ocr(optical character recognition)即光學字元識別技術,專門用於對文字進行識別,並獲取文字。

tesseract-ocr引擎先由hp實驗室研發,後來成為乙個開源專案,主要由google進行改進優化。

homebrew是macos上的包管理器,類似於ubuntu中的apt-get,centos中的yum,homebrew安裝很簡單

ruby-e"

$(curl

-fssl "

安裝完畢後可以用brew -v測試

homebrew 1.3.1

homebrew/homebrew-core (git revision 0290;

last commit 2017-08-23)

brew install --with-training-tools tesseract #同時安裝附加元件,後面自定義字型檔會用到

安裝完畢後用tesseract -v測試

tesseract 3.05.01

leptonica-1.74.4

libjpeg 9b : libpng 1.6.31 : libtiff 4.0.8 : zlib 1.2.8

tesseract test.png output #識別test.png的,把結果放到output.txt中

output.txt自動生成

更多可選引數的用法可以通過tesseract -h查詢

python有著更加優雅的方式呼叫系統的tesseract工具,首先安裝pytesseract模組

sudo pip install pytesseract
pytesseract是對tesseract的封裝,要和pil聯合使用,基本用法如下:

import

pytesseract

from

pil import

image

img = image.open('./test.png'

) #先建立image物件

text = pytesseract.image_to_string(img) #直接轉化成string,更多引數可以檢視文件

repr(text) #"u'hello world!\\n1234'"

Anaconda pycharm 在mac上的安裝

在使用python時,經常需要用到的很多第三方庫,如影象處理庫pillow,mysql驅動程式,web框架flask 科學計算numpy等。可以使用pip乙個乙個安裝,但比較麻煩,還需要來考慮相容性。因此推薦使用anaconda,這是乙個基於python的資料處理和科學計算平台,它已經內建了很多非常...

在mac上編譯htk

解壓縮 後 cd htk 操作目錄都是在這個下 可能需要安裝的東西 1.gcc mac都自帶有的 但是如果這時候你直接去 make all 會出現沒有找到xlib的錯誤 2.command line tools 這個package包含很多命令列下的headers 包括xlib 一般情況下 只要安裝了...

mac上mysql開啟錯誤

possible c c prototypes are 本地 mysql伺服器不能開啟了。通過 phpmyadmin登入後台卻提示我 2002 無法登入 mysql伺服器 嘗試通過終端啟動 mysql服務也失敗了,各種命令都敲遍了,提示我 the server quit without updati...