多種文字檢測演算法效能對比及演算法介紹
(之前的文字檢測演算法在處理較難的場景時往往會出錯,即使是使用了深度學習演算法的也表現的不好,因為這些演算法由多個步驟組成,不僅耗時,表現還不好。本文提出了乙個簡單的能夠快速準確定位場景文字的演算法,改演算法直接**任意形狀或矩形word或者行文字。在 icdar 2015, coco-text and msra-td500資料集上都領先於之前的演算法,在icdar 2015資料集上,該演算法在720p的上以13.2fps的速度得到了0.7820的f-score。
該演算法有三大貢獻:
該演算法有兩部分組成,第一部分是全卷機網路,直接**文字區域,另一部分是nms合併,把檢測的結果通過nms合併成最終結果
改演算法無論是單詞還是行文字都可以**,形狀可以是旋轉的boxes or quadrangles
無論在速度還是精度上都領先於之前的演算法
之前的演算法大部分由多步組成,例如去除假陽、候選聚合、線和行的組成等,如圖2(a-d)所示。這些方法需要不斷的進行微調,導致效果一般,並且處理時間增加。
該模型直接利用全卷機神經網路輸出密集的畫素級別detection來**文字,省去了候選方案、文字區域形成和單詞劃分等互動步驟,預處理步驟僅包括閾值設定和nms。把改演算法稱之為east,since it is anefficient andaccuracyscenetext detection pipeline。
fcn的第乙個輸出通道是score map,每個score值限定在[0,1],其餘的通道代表從每個畫素的檢視中包圍該單詞的幾何形狀,這個分數代表在同一地點**的幾何形狀的置信度。
檢測不同文字形狀有兩種形式, rotated box (rbox) and quadrangle (quad),使用了不同loss函式,每乙個**結果大於某個閾值的進入下一步nms處理,nms處理結果作為最終的輸出。
文字檢測之 craft檢測演算法
名稱 character region awareness for text detection 開源 核心思想 本 為2019年南韓學者提出的一種字元級的文字檢測演算法,取得了不錯的檢測效果.craft文字檢測的主要思想 影象分割的思想,採用u net結構,先下取樣再上取樣,非畫素級分割,而是將乙...
EAST文字檢測學習整理
復現 傳統的文字檢測方法和一些基於深度學習的文字檢測方法,大多是multi stage,在訓練時需要對多個stage調優,這勢必會影響最終的模型效果,而且非常耗時 針對上述存在的問題,本文提出了端到端的文字檢測方法,消除中間多個stage 如候選區域聚合,文字分詞,後處理等 直接 文字行 提出了基於...
文字檢測演算法八 DeepText
目錄1.概述 2.fcn 3.rpn 4.bilinear sampling 5.text recognition 6.總結 提出了一種場景文字定位和識別方法。新穎性包括 在單個端到端傳遞的訓練文字檢測和識別,識別cnn的結構和其輸入層的幾何形狀保留文字的表徵,並使其解析度適應資料。所提出的方法在兩...