pytesseract使用的坑

今天學了下python的ocr識別，其中遇到好多坑，下面就一一闡述是如何破解的，本人用的是windows 64位，ide是vs2017。

首先安裝pytesseract這個庫，pip install tessract。由於自己輸錯了，tessract前少了py兩個字母，安裝沒有成功，丟擲乙個pip版本過低的問題，我就將pip公升級到最新版9.0.3，以前是9.0.1。

輸入python -m pip install --upgrade pip後提示沒有訪問許可權，這裡我就用管理員模式進到python目錄下更新，這樣就成功了。

出現這個錯誤，想了一會兒沒找到原因，搜了一下有說把要識別的放到pytessract的安裝庫下，試了一下沒成功，而且個人認為這不是問題所在，因為把image.open()的路徑已經指定了也不行。

另乙個方法是：

pytesseract.pytesseract.tesseract_cmd = r'c:\program files (x86)\microsoft visual studio\shared\python36_64\tesseract-ocr\tesseract'

試了一下，成功了。仔細一想瞬間就明白了：官方給的是pytessract和tessract.exe配合使用（windows系統下），那麼ide怎麼知道你這個cmd在哪個檔案下，所以在使用時要手動宣告你的pytessract需要哪個cmd來執行識別的工作，檔案路徑就是你tessract的安裝路徑裡tessract.exe的路徑。

最後說一點，tessract這個識別率不高，4個字元識別出2個，還錯乙個。

pytesseract使用的坑

使用pytesseract出現的配置問題

基於pytesseract的驗證碼識別

使用pageoffice的坑

pytesseract使用的坑

使用pytesseract出現的配置問題

基於pytesseract的驗證碼識別

使用pageoffice的坑

相關推薦