最近研究了一下用python識別影象上的文字,發現其簡直是太方便了,只需安裝好tesseract-ocr環境,然後直接呼叫就能把文字識別出來。
tesseract,一款由hp實驗室開發由google維護的開源ocr(optical character recognition , 光學字元識別)引擎,與microsoft office document imaging(modi)相比,我們可以不斷的訓練的庫,使影象轉換文字的能力不斷增強;如果團隊深度需要,還可以以它為模板,開發出符合自身需求的ocr引擎。
具體安裝tesseract-ocr環境參考部落格:
還有在寫程式時候要記得匯入對應的幾個包,識別影象上的文字就一行**:
text = pytesseract.image_to_string(image.open('test.jpg'),lang='chi_sim')沒錯,就這麼簡潔明瞭。
# 翻譯函式,word 需要翻譯的內容
def translate(word):
# 有道詞典 api
url = ''
# 傳輸的引數,其中 i 為需要翻譯的內容
key =
# key 這個字典為傳送給有道詞典伺服器的內容
response = requests.post(url, data=key)
# 判斷伺服器是否相應成功
if response.status_code == 200:
# 然後相應的結果
return response.text
else:
print("有道詞典呼叫失敗")
# 失敗就返回空
return none
def get_reuslt(repsonse):
# 通過 json.loads 把返回的結果載入成 json 格式
result = json.loads(repsonse)
print ("翻譯:%s" % result['translateresult'][0][0]['tgt'])
def main():
list_trans = translate(text)
get_reuslt(list_trans)
if __name__ == '__main__':
main()
識別的**:
識別結果:
Python識別中的文字
參照 2.本地安裝tesseract pip install pytesseract 文字識別 pip install pillow 讀取 參照importosimportpytesseract 文字的路徑 path text img 獲取路徑列表 imgs path iforiinos.listd...
Python 文字識別 Tesseract
tesseract 是乙個 ocr 庫,目前由 google 贊助 google 也是一家以 ocr 和機器學習技術聞名於世的公司 tesseract 是目前公認最優秀 最精確的開源 ocr 系統。除了極高的精確度,tesseract 也具有很高的靈活性。它可以通過訓練識別出任何字型,也可以識別出任...
python識別文字tesseract
ubuntu版本 1.tesseract ocr安裝 sudo apt get install tesseract ocr 2.pytesseract安裝 sudo pip install pytesseract 3.pillow 安裝 sudo pip install pillow 開始寫 fro...