今天學了下python的ocr識別,其中遇到好多坑,下面就一一闡述是如何破解的,本人用的是windows 64位,ide是vs2017。
首先安裝pytesseract這個庫,pip install tessract。由於自己輸錯了,tessract前少了py兩個字母,安裝沒有成功,丟擲乙個pip版本過低的問題,我就將pip公升級到最新版9.0.3,以前是9.0.1。
輸入python -m pip install --upgrade pip後提示沒有訪問許可權,這裡我就用管理員模式進到python目錄下更新,這樣就成功了。
出現這個錯誤,想了一會兒沒找到原因,搜了一下有說把要識別的放到pytessract的安裝庫下,試了一下沒成功,而且個人認為這不是問題所在,因為把image.open()的路徑已經指定了也不行。
另乙個方法是:
pytesseract.pytesseract.tesseract_cmd = r'c:\program files (x86)\microsoft visual studio\shared\python36_64\tesseract-ocr\tesseract'
試了一下,成功了。仔細一想瞬間就明白了:官方給的是pytessract和tessract.exe配合使用(windows系統下),那麼ide怎麼知道你這個cmd在哪個檔案下,所以在使用時要手動宣告你的pytessract需要哪個cmd來執行識別的工作,檔案路徑就是你tessract的安裝路徑裡tessract.exe的路徑。
最後說一點,tessract這個識別率不高,4個字元識別出2個,還錯乙個。
使用pytesseract出現的配置問題
先把 貼上下來 print text就這麼幾行 但是執行起來一直報錯,報的錯誤是 windowserror error 2 和pytesseract.pytesseract.tesseracterror 經過長達半天的查詢和修改 總結了兩點錯誤的原因 windows下 1 先看自己有沒有裝tesse...
基於pytesseract的驗證碼識別
驗證碼識別是光學字元識別 ocr 的一種,ocr技術在我們生活中很多地方都有用到,比如車牌識別,省份證識別,手寫字元識別等,給我們的生活帶來很多便利。所以很多網際網路公司都在研究這一技術,大家接觸比較多的就是谷歌的tesseract ocr,它是一款免費的開源軟體,支援多種語言。當然也有一些商業軟體...
使用pageoffice的坑
我需要讀取pageoffice編輯儲存後的文件內容,但是我們新建的word檔案大多數都是iso88591格式的,所以讀出後都是亂碼,用了各種解碼編碼都不行,pageoffice生成的.htm檔案本身是gb2312格式的,所以我用gb2312格式讀出再轉utf 8格式後沒有出現亂碼 具體核心 如下 f...