OCR演算法很屌哦

2021-09-24 03:16:29 字數 941 閱讀 1605

一.cor應用場景

1.四類:

數字原生類: 

**商品圖是最具有代表性的數字原生類文字圖。 

特點:1)最複雜多樣:各種字型、背景、排列、組合等(mtwi挑戰賽-最大的ocr競賽)。 

2)最有價值:商品資訊載體 

3)量最大:千億,每日不停更新。

文件類: 

文件類ocr需求非常廣,涉及各種公務場景。 

特點:1)100%識別率:人的輸入準確率為98%,探索ai知識的極限;2)產品易用性:完善的功能,貼近業務需求;3)商業應用:文件類商業成熟。 

拍照表單類:拍照表單類ocr價值非常大,非常有挑戰性。 

特點:1)場景&資料:資料具有私隱性,典型應用場景沉澱技術能力;2)產品通用性:專家知識+模板=文字理解,一套方案解決上百種型別。3)商業價值:和行業場景深度接入,ai能力改善行業資料流程。(提供定製的拍照**識別和結構化雲服務) 

自然場景類: ocr學術研究的重點方向。 

特點:1)資料:無具體資料型別定義,比如街拍資料;2)技術難點:不確定性,複雜環境干擾本質難點是定位和識別;3)商業價值:市場潛力巨大,如:車牌識別、攝像監控、自動駕駛。(技術能力領先,行業落地中)

2.ocr演算法:

演算法能力: 

兩種核心演算法能力:1)通用文字識別;2)通用結構化(文字識別是結構化的基礎) 

基礎演算法:文字定位、文字識別

1.文字定位:定位文字在影象中的位置表徵成行。 

特徵問題:背景等特徵干擾問題,深度學習可以較好的解決特徵問題。 

scale問題:物體定位的共性問題,字高範圍8-300個畫素 

成行問題:文字定位特有問題。 

(1)scale問題:物體定位的共性問題 

(2)成行問題:文字定位特有問題 

2.文字識別 

在文字定位的基礎上,識別文字內容,同時,輸出單字位置和識別率用於文字理解。 

shell 之script命令,很常用的哦

script 類似於oracle中的spool,就是將你在終端中的操作記錄下來!非常適用於教學或是培訓的場合!核心語法 script option filename 要求 1.若是不輸入filename的話,那麼就採用預設的名字typescript.2.結束記錄可以是ctrl d,也可以是關閉當前s...

70個面試技巧,很實用哦,供大家參考

46 你工作經驗欠缺,如何能勝任這項工作?常規思路 如果招聘單位對應屆畢業生的應聘者提出這個問題,說明招聘公司並不真正在乎 經驗 關鍵看應聘者怎樣回答 對這個問題的回答最好要體現出應聘者的誠懇 機智 果敢及敬業 如 作為應屆畢業生,在工作經驗方面的確會有所欠缺,因此在讀書期間我一直利用各種機會在這個...

結構體定義暫存器方法(很流行哦)

arm暫存器數量之多,嘆為觀止!幸運的是,它都是以模組分布,再依託c語言的模組化程式設計,使用者就沒有必要記憶那麼多的暫存器名稱了!拿lpc1114來說,微控制器內部模組有 模數轉換器adc模組 看門狗wdg模組 中斷模組nvic 串列埠uart模組 等等。每個模組都有一些暫存器。在51微控制器中,...