場景文字檢測概述

2021-10-01 23:43:43 字數 1119 閱讀 5052

文字場景檢測一直是乙個熱門的研究熱點,文字場景檢測和目標檢測十分類似,用到的原理也包含了目標檢測裡面的faster rcnn、ssd等。

卷積網路的空間不變性是乙個非常重要的特性。正是由於卷積網路的空間不變性,我們可以利用其進行字元的位置定位,ctpn的主體網路結構使用到了卷積神經網路vgg以及lstm來提取的特徵值。能夠檢測出複雜場景下的橫向分布的文字,它是在faster rcnn基礎上開發的。以下是直接使用faster rcnn訓練以及測試與使用ctpn訓練測試結果展現,效果對比如下:

由左圖可以看出,faster rcnn能夠直接檢測出文字區域,如果文字之間過近或者大小發生變化,檢測結果將不會十分理想。而如果使用ctpn方式,ctpn首先會檢測出不同的長方形區域,這些長方形區域正好能夠覆蓋文字區域。

ctpn網路結構是被用來設計檢測橫向排列的文字。ctpn結構與faster r-cnn基本類似,也可以自己去設定特徵屬性提取結構,不同於faster r-cnn的是,ctpn使用了lstm層結構。當然,如果直接介紹ctpn網路結構還是推薦首先看懂faster rcnn以及lstm的原始碼,這樣會比較好理解ctpn各個層的作用以及對層內的影響,這樣就能夠自己去改進主體網路架構,主體架構可以參看一下:深度學習在醫學領域的應用中的影象領域的主體網路的作用。當然,本文不會重點講解ctpn的結構,僅僅說明一下如何訓練以及如何測試。

使用labelimg或者labelme工具將文字標註出來

此時標註結果如下圖:

使用指令碼處理前一步標註的標籤,將文字區域劃分成寬度固定的子區域(也就是給出的**作者訓練用的voc格式標註檔案)

開始訓練,訓練方式與faster rcnn一致

這時可能會有疑問了,使用這種方法標註區域然後訓練,訓練出來的模型雖然能夠檢測文字區域,但這些文字區域也是和標註類似的小區域呀!!!

此時的後續操作並不是非常重要,所以這裡就不介紹了,直接給出相應的連線 場景文字檢測—ctpn原理與實現,具體實現原理可以參考一下,和極大值抑制演算法比較類似。

異常檢測概述

基於統計學 假設資料服從某個分布,比如高斯分布,然後根據樣本,運用極大似然估計求出分布的引數,然後把低概率區域的樣本認為是異常值pca主成分分析方法 基於相似度的方法 feature bagging 孤立森林 周志華提出 孤立森林假設我們用乙個隨機超平面來切割資料空間,切一次可以生成兩個子空間。然後...

目標檢測網路概述

自從卷積神經網路在分類問題上取得很大進步以後,學者們紛紛想辦法將卷積神經網路遷移到目標檢測 目標分割等領域。目標檢測領域發展到現在,出現了很多里程碑式的網路結構和設計思想,可以說是百花齊放,大放異彩,但是總體上大概可以將目標檢測分為三個類別 相信大家都知道,是大神何凱明最早將卷積神經網路引入到目標檢...

seg link 文字檢測

通過區域性資訊尋找小片片 segment 和小片片之間的連線 link 來進行文字檢測。每個 seg 是文字的一部分,link 是虛構出來的 seg 和 seg 中點間的連線,能相容各種形狀和方向的文字框。基礎網路和 ssd 很相似,seg 和 link 都是利用 conv 當作 器 得到。seg ...