ocr(optical character recognition)即光學字元識別技術,專門用於對文字進行識別,並獲取文字。
tesseract-ocr引擎先由hp實驗室研發,後來成為乙個開源專案,主要由google進行改進優化。
homebrew是macos上的包管理器,類似於ubuntu中的apt-get,centos中的yum,homebrew安裝很簡單
ruby-e"
$(curl
-fssl "
安裝完畢後可以用brew -v測試
homebrew 1.3.1
homebrew/homebrew-core (git revision 0290;
last commit 2017-08-23)
brew install --with-training-tools tesseract #同時安裝附加元件,後面自定義字型檔會用到
安裝完畢後用tesseract -v測試
tesseract 3.05.01
leptonica-1.74.4
libjpeg 9b : libpng 1.6.31 : libtiff 4.0.8 : zlib 1.2.8
tesseract test.png output #識別test.png的,把結果放到output.txt中
output.txt自動生成
更多可選引數的用法可以通過tesseract -h查詢
python有著更加優雅的方式呼叫系統的tesseract工具,首先安裝pytesseract模組
sudo pip install pytesseract
pytesseract是對tesseract的封裝,要和pil聯合使用,基本用法如下:
import
pytesseract
from
pil import
image
img = image.open('./test.png'
) #先建立image物件
text = pytesseract.image_to_string(img) #直接轉化成string,更多引數可以檢視文件
repr(text) #"u'hello world!\\n1234'"
Anaconda pycharm 在mac上的安裝
在使用python時,經常需要用到的很多第三方庫,如影象處理庫pillow,mysql驅動程式,web框架flask 科學計算numpy等。可以使用pip乙個乙個安裝,但比較麻煩,還需要來考慮相容性。因此推薦使用anaconda,這是乙個基於python的資料處理和科學計算平台,它已經內建了很多非常...
在mac上編譯htk
解壓縮 後 cd htk 操作目錄都是在這個下 可能需要安裝的東西 1.gcc mac都自帶有的 但是如果這時候你直接去 make all 會出現沒有找到xlib的錯誤 2.command line tools 這個package包含很多命令列下的headers 包括xlib 一般情況下 只要安裝了...
mac上mysql開啟錯誤
possible c c prototypes are 本地 mysql伺服器不能開啟了。通過 phpmyadmin登入後台卻提示我 2002 無法登入 mysql伺服器 嘗試通過終端啟動 mysql服務也失敗了,各種命令都敲遍了,提示我 the server quit without updati...