OCR技術的簡單理解

2021-09-24 03:16:29 字數 941 閱讀 9654

一.cor應用場景

1.四類:

數字原生類: 

**商品圖是最具有代表性的數字原生類文字圖。 

特點:1)最複雜多樣:各種字型、背景、排列、組合等(mtwi挑戰賽-最大的ocr競賽)。 

2)最有價值:商品資訊載體 

3)量最大:千億,每日不停更新。

文件類: 

文件類ocr需求非常廣,涉及各種公務場景。 

特點:1)100%識別率:人的輸入準確率為98%,探索ai知識的極限;2)產品易用性:完善的功能,貼近業務需求;3)商業應用:文件類商業成熟。 

拍照表單類:拍照表單類ocr價值非常大,非常有挑戰性。 

特點:1)場景&資料:資料具有私隱性,典型應用場景沉澱技術能力;2)產品通用性:專家知識+模板=文字理解,一套方案解決上百種型別。3)商業價值:和行業場景深度接入,ai能力改善行業資料流程。(提供定製的拍照**識別和結構化雲服務) 

自然場景類: ocr學術研究的重點方向。 

特點:1)資料:無具體資料型別定義,比如街拍資料;2)技術難點:不確定性,複雜環境干擾本質難點是定位和識別;3)商業價值:市場潛力巨大,如:車牌識別、攝像監控、自動駕駛。(技術能力領先,行業落地中)

2.ocr演算法:

演算法能力: 

兩種核心演算法能力:1)通用文字識別;2)通用結構化(文字識別是結構化的基礎) 

基礎演算法:文字定位、文字識別

1.文字定位:定位文字在影象中的位置表徵成行。 

特徵問題:背景等特徵干擾問題,深度學習可以較好的解決特徵問題。 

scale問題:物體定位的共性問題,字高範圍8-300個畫素 

成行問題:文字定位特有問題。 

(1)scale問題:物體定位的共性問題 

(2)成行問題:文字定位特有問題 

2.文字識別 

在文字定位的基礎上,識別文字內容,同時,輸出單字位置和識別率用於文字理解。 

OCR技術概覽

ocr optical character recognition 光學字元識別技術主要分為手寫體識別和印刷體識別兩類 印刷體識別比手寫體識別要簡單,因為印刷體更規範,字型來自於計算機字型檔,儘管印刷過程中可能會發生不清晰 粘連,這些都可以通過一些 腐蝕 膨脹 影象處理技術還原,但是手寫體由於個體差...

OCR技術初識

ocr英文全稱是optical character recognition,中文叫做光學字元識別。它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,並轉換成一種計算機能夠接受 人又可以理解的格式。這一概念最早於 1929 年由德國科學家 tausheck 提出。資訊資源數位化工作的目標物件...

OCR技術識別文件的技術

ocr技術識別文件的概括 我們常說的ocr 文字識別 ocr技術識別文件是指通過電子裝置等將紙質上的文字識別出來,形成可編輯的文字。ocr技術識別文件的流程 常規的ocr文字識別處理的過程包括 1 影象輸入 預處理 二值化 雜訊去除 傾斜較正 2 版面分析 把頁面分為橫排文字 豎排文字 等不同區域,...