目錄1. 概述:提出了一種場景文字定位和識別方法。 新穎性包括:在單個端到端傳遞的訓練文字檢測和識別,識別cnn的結構和其輸入層的幾何形狀保留文字的表徵,並使其解析度適應資料。所提出的方法在兩個標準資料集(icdar 2013和icdar 2015)上實現了端到端文字識別的最先進準確度,同時比競爭方法快乙個數量級 - 整個流程以10幀執行每秒在nvidia k80 gpu上。2. fcn:
3. rpn:
4. bilinear sampling :
5. text recognition :
6. 總結:
整體流程,輸入先進行乙個基於yolov2 的全卷積網路,然後經過rpn網路,輸出經過nms過濾後的roi邊框,然後根據該邊框在最後一層卷積層上通過類似於stn的方式對映出高度固定的patch塊。然後基於ctc進行識別。再根據識別的結果進行nms過濾,得到最終結果。
這裡在訓練的時候,只取**邊框和targets的iou最大的邊框進行loss計算。而在測試的時候,如果也這樣做,會出現漏檢的情況。因此修改為通過乙個閾值的限制,只要高於固定閾值的都會進行前向傳播,後續再將得到的結果進行合併。
該基礎結構採用yolov2 的結構,使用了18個卷積層,5個pooling層。假設輸入為h*w*3,最終得到的featuremap大小為(w/32)* (h/32)*1024
首先rpn模組的anchor還是採用yolov2 中使用的基於kmeans的方式,在訓練集合上生成的包含了各種aspect ratio和scale的一共14個anchor,即k=14。
rpn模組會輸出**的中心座標rx,ry,寬高rw,rh,角度rseita,得分rp。一共6個維度的特徵。加上anchor的維度,最終將會輸出(w/32)* (h/32)*6k 的特徵圖。
座標的**方式和yolov2也一樣。角度seita是yolov2中沒有的。
如上式所示,rx,ry,rw,rh,rseita為需要**的值。
這裡**中心座標rx,ry,和寬高rw,rh來生成最終的邊框。最終的x,y,w,h分別表示中心座標相對於anchor中心的倍數和寬高相對於anchor寬高的倍數。
cx,cy為框的中心座標所在的grid cell 距離左上角第乙個grid cell的cell個數。
rx,ry為**的邊框的中心點座標。
σ()函式為logistic函式,將座標歸一化到0-1之間。最終得到的bx,by為歸一化後的相對於grid cell的值。
rw,rh,為**的邊框的寬,高。求exp函式後會得到anchor的不同倍數,包括小於1和大於1的。
aw,ah為anchor的寬,高。
seita等於rseita,為直接**的角度。角度區間為(-pi/2,pi/2)
該模組主要進行旋轉,平移,縮放的仿射變換。通過該變換,將roi區域都歸一化到固定32個畫素的高度。類似於stn的操作。和roi pooling操作還是有區別。roi pooling只能得到固定大小的roi區域,但是bilinear sampling 可以得到固定高度,寬度不一定的roi區域,很好的保證了aspect ratio。缺點就是,這塊沒法像roi pooling那樣走並行了。
識別模組的網路結構如下:
loss使用的是ctc loss。
(1)以前的檢測框架都是利用檢測的分數來過濾檢測框。但是本文利用識別結果的分數來對檢測框進行過濾,思想很好。更好的使用檢測輔助識別,識別輔助檢測。這樣做的優勢就是只需要乙個rpn模組就可以了,而不需要額外的後續的fast rcnn模組了。自然網路整體效率就會大大提公升。
(2)整體rpn檢測模組+ctc識別模組,相比mask text spotter只能識別26個字母和10個數字更加具有通用性。
文字檢測之 craft檢測演算法
名稱 character region awareness for text detection 開源 核心思想 本 為2019年南韓學者提出的一種字元級的文字檢測演算法,取得了不錯的檢測效果.craft文字檢測的主要思想 影象分割的思想,採用u net結構,先下取樣再上取樣,非畫素級分割,而是將乙...
前景檢測演算法(八) SACON演算法
原文 sacon sample consensus 演算法是基於樣本一致性的運動目標檢測演算法。該演算法通過對每個畫素進行樣本一致性判斷來判定畫素是否為背景。演算法框架圖 由上圖可知,該演算法主要分為四個主要部分,分別是鄰域差分 sacon演算法核心處理 空洞填充後處理 tom time out m...
文字檢測演算法 EAST閱讀筆記
多種文字檢測演算法效能對比及演算法介紹 之前的文字檢測演算法在處理較難的場景時往往會出錯,即使是使用了深度學習演算法的也表現的不好,因為這些演算法由多個步驟組成,不僅耗時,表現還不好。本文提出了乙個簡單的能夠快速準確定位場景文字的演算法,改演算法直接 任意形狀或矩形word或者行文字。在 icdar...