一.cor應用場景
1.四類:
數字原生類:
**商品圖是最具有代表性的數字原生類文字圖。
特點:1)最複雜多樣:各種字型、背景、排列、組合等(mtwi挑戰賽-最大的ocr競賽)。
2)最有價值:商品資訊載體
3)量最大:千億,每日不停更新。
文件類:
文件類ocr需求非常廣,涉及各種公務場景。
特點:1)100%識別率:人的輸入準確率為98%,探索ai知識的極限;2)產品易用性:完善的功能,貼近業務需求;3)商業應用:文件類商業成熟。
拍照表單類:拍照表單類ocr價值非常大,非常有挑戰性。
特點:1)場景&資料:資料具有私隱性,典型應用場景沉澱技術能力;2)產品通用性:專家知識+模板=文字理解,一套方案解決上百種型別。3)商業價值:和行業場景深度接入,ai能力改善行業資料流程。(提供定製的拍照**識別和結構化雲服務)
自然場景類: ocr學術研究的重點方向。
特點:1)資料:無具體資料型別定義,比如街拍資料;2)技術難點:不確定性,複雜環境干擾本質難點是定位和識別;3)商業價值:市場潛力巨大,如:車牌識別、攝像監控、自動駕駛。(技術能力領先,行業落地中)
2.ocr演算法:
演算法能力:
兩種核心演算法能力:1)通用文字識別;2)通用結構化(文字識別是結構化的基礎)
基礎演算法:文字定位、文字識別
1.文字定位:定位文字在影象中的位置表徵成行。
特徵問題:背景等特徵干擾問題,深度學習可以較好的解決特徵問題。
scale問題:物體定位的共性問題,字高範圍8-300個畫素
成行問題:文字定位特有問題。
(1)scale問題:物體定位的共性問題
(2)成行問題:文字定位特有問題
2.文字識別
在文字定位的基礎上,識別文字內容,同時,輸出單字位置和識別率用於文字理解。
OCR技術概覽
ocr optical character recognition 光學字元識別技術主要分為手寫體識別和印刷體識別兩類 印刷體識別比手寫體識別要簡單,因為印刷體更規範,字型來自於計算機字型檔,儘管印刷過程中可能會發生不清晰 粘連,這些都可以通過一些 腐蝕 膨脹 影象處理技術還原,但是手寫體由於個體差...
OCR技術初識
ocr英文全稱是optical character recognition,中文叫做光學字元識別。它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,並轉換成一種計算機能夠接受 人又可以理解的格式。這一概念最早於 1929 年由德國科學家 tausheck 提出。資訊資源數位化工作的目標物件...
OCR技術識別文件的技術
ocr技術識別文件的概括 我們常說的ocr 文字識別 ocr技術識別文件是指通過電子裝置等將紙質上的文字識別出來,形成可編輯的文字。ocr技術識別文件的流程 常規的ocr文字識別處理的過程包括 1 影象輸入 預處理 二值化 雜訊去除 傾斜較正 2 版面分析 把頁面分為橫排文字 豎排文字 等不同區域,...