爬蟲文字識別

機器視覺

從google的無人駕駛汽車到可以識別假鈔的自動售賣機，機器視覺一直都是乙個應用廣泛且具有深遠的影響和雄偉的願景的領域。

我們可以很輕鬆的閱讀裡的文字，但是機器閱讀這些就會非常困難，利用這種人類使用者可以正常讀取但是大多數存貯器沒法讀取的，這時驗證碼（captcha）就出現了。驗證碼讀取的難易程式也大不相同。

將影象翻譯成文字一般被稱為光學文字識別（optical character recognition，ocr）。可以實現ocr的底層庫並不多，目前很多庫都是使用共同的幾個底層ocr庫，或者是在上面進行定製。

ocr庫概述

在讀取和處理影象、影象相差的機器學習以及建立影象等任務中，python一直都是非常出色的語言。雖然有很多庫可以進行影象處理，但是這裡我們只介紹tesseract庫。

tesseract

tesseract是乙個ocr庫，目前由google贊助。tesseract是目前公認最優秀、最精確的開源ocr系統。除了極高的精確度，tesseract也具有很高的靈活性。它可以通過訓練識別出任何字型，也可以識別出任何unicode字元。

安裝tesseract：windows系統

安裝pytesseract

tesseract是乙個python的命令列工具，不是通過import語句匯入的庫。安裝之後，要用tesseract命令在python的外面執行，但我們可以通過pip安裝支援python版本的tesseract庫：

pip install pytesseract

處理規範的文字

你要處理的大多數文字都是比較乾淨、格式規範的。格式霍英東的文字通常具有以下特點：

使用統一的標準字型（不包含手寫體、草書或者十分「花哨」的字型），影印或者拍照但是字型清晰、沒有多餘的痕跡或者汙點

排列整齊，沒有歪歪斜斜的字

沒有超出範圍，也沒有殘缺不全，或緊緊貼在的邊緣

文字的一些格式問題在預處理時可以進行解決。例如，可以把轉換成灰度圖，調整亮度和對比度，還可以根據需要進行裁剪和旋轉，在這裡不作介紹。

示例：英文：

在學習過程中有什麼不懂得可以加我的python學習交流扣扣qun，688244617 群裡有不錯的學習教程、開發工具與電子書籍。與你分享python企業當下人才需求及怎麼從零基礎學習好python，和學習什麼內容。

tesseract. here are some symbols: !@#$%"&*()

識別結果的準確率還是挺高的。

通過python**實現

#!/usr/bin/python3
# -*- coding:utf-8 -*-
__author__ =
'mayi'
import pytesseract
from pil import image
# 開啟影象：英文
)# ocr識別：lang預設英文
text = pytesseract.image_to_string(image)
# 列印識別後的文字
print
(text)
# 我是分割線
print
("*"*30
)# 開啟影象：英文
image = image.
open
('china.png'
)# ocr識別：lang指定中文
text = pytesseract.image_to_string(image, lang =
'chi_sim'
)# 列印識別後的文字
print
(text)

執行結果

this is some text, written in arial, that will be read by tesseract. here are some symbols: !@#$%"&*() **** **** **** **** **** **** ****

**中華人民共和國

爬蟲文字識別

文字識別文字識別的應用

文字識別軟體

Tesseract Ocr文字識別

爬蟲 文字識別

文字識別 文字識別的應用

文字識別軟體

Tesseract Ocr文字識別

相關推薦

爬蟲文字識別

文字識別文字識別的應用