OCR技術的簡單理解

一.cor應用場景

1.四類：

數字原生類：

**商品圖是最具有代表性的數字原生類文字圖。

特點：1）最複雜多樣：各種字型、背景、排列、組合等（mtwi挑戰賽-最大的ocr競賽）。

2）最有價值：商品資訊載體

3）量最大：千億，每日不停更新。

文件類：

文件類ocr需求非常廣，涉及各種公務場景。

特點：1）100%識別率：人的輸入準確率為98%，探索ai知識的極限；2）產品易用性：完善的功能，貼近業務需求；3）商業應用：文件類商業成熟。

拍照表單類：拍照表單類ocr價值非常大，非常有挑戰性。

特點：1）場景&資料：資料具有私隱性，典型應用場景沉澱技術能力；2）產品通用性：專家知識+模板=文字理解，一套方案解決上百種型別。3）商業價值：和行業場景深度接入，ai能力改善行業資料流程。（提供定製的拍照**識別和結構化雲服務）

自然場景類： ocr學術研究的重點方向。

特點：1）資料：無具體資料型別定義，比如街拍資料；2）技術難點：不確定性，複雜環境干擾本質難點是定位和識別；3）商業價值：市場潛力巨大，如：車牌識別、攝像監控、自動駕駛。（技術能力領先，行業落地中）

2.ocr演算法：

演算法能力：

兩種核心演算法能力：1）通用文字識別；2）通用結構化（文字識別是結構化的基礎）

基礎演算法：文字定位、文字識別

1.文字定位：定位文字在影象中的位置表徵成行。

特徵問題：背景等特徵干擾問題，深度學習可以較好的解決特徵問題。

scale問題：物體定位的共性問題，字高範圍8-300個畫素

成行問題：文字定位特有問題。

（1）scale問題：物體定位的共性問題

（2）成行問題：文字定位特有問題

2.文字識別

在文字定位的基礎上，識別文字內容，同時，輸出單字位置和識別率用於文字理解。

OCR技術概覽

ocr optical character recognition 光學字元識別技術主要分為手寫體識別和印刷體識別兩類印刷體識別比手寫體識別要簡單,因為印刷體更規範,字型來自於計算機字型檔,儘管印刷過程中可能會發生不清晰粘連,這些都可以通過一些腐蝕膨脹影象處理技術還原,但是手寫體由於個體差...

OCR技術初識

ocr英文全稱是optical character recognition，中文叫做光學字元識別。它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來，並轉換成一種計算機能夠接受人又可以理解的格式。這一概念最早於 1929 年由德國科學家 tausheck 提出。資訊資源數位化工作的目標物件...

OCR技術識別文件的技術

ocr技術識別文件的概括我們常說的ocr 文字識別 ocr技術識別文件是指通過電子裝置等將紙質上的文字識別出來，形成可編輯的文字。ocr技術識別文件的流程常規的ocr文字識別處理的過程包括 1 影象輸入預處理二值化雜訊去除傾斜較正 2 版面分析把頁面分為橫排文字豎排文字等不同區域，...

OCR技術的簡單理解

OCR技術概覽

OCR技術初識

OCR技術識別文件的技術

相關推薦