參考:
【 faster rcnn 非常詳盡】
零基礎入門深度學習(5) - 迴圈神經網路
零基礎入門深度學習(6) - 長短時記憶網路(lstm)
文章基本資訊
**題目:detecting text in natural image with connectionist text proposal network,簡稱ctpn.該文章是eccv2016喬宇老師的文章
**實現:作者的caffe實現),
其他人tensorflow實現)
作者提供的caffe實現沒有訓練**,不過訓練**可以參考faster-rcnn的訓練**
文字檢測概述
文字檢測可以看成特殊的目標檢測,但它有別於通用目標檢測.在通用目標檢測中,每個目標都有定義好的邊界框,檢測出的bbox與當前目標的groundtruth重疊率大於0.5就表示該檢測結果正確.
文字檢測中正確檢出需要覆蓋整個文字長度,且評判的標準不同於通用目標檢測,具體的評判方法參見(icdar 2017 robustreading competition).所以通用的目標檢測方法並不適用文字檢測。
原始ctpn只檢測橫向排列的文字。ctpn結構與faster r-cnn基本類似,但是加入了lstm層。假設輸入
圖2 ctpn網路結構
回答這三個問題,基本原理就了解了。感謝作者,寫的很詳細。
詳見知乎:
ubuntu配置ctpn 文字檢測
我是在ubuntu14.04系統下進行的操作。這個工程是基於tensorflow的,所以,首先要確保安裝了tensorflow。tensorflow的安裝很簡單,直接使用pip安裝即可。pip install tensorflow檢驗安裝是否成功 import tensorflow as tf不報錯...
OCR文字檢測模型 CTPN
乙個簡單的文字識別流程如下 step 1.通過手機 攝像機 掃瞄器等裝置採集含有待識別字元的影象,作為輸入 step 2.對影象進行尺寸縮放 明暗調整 去噪等預處理操作 step 3.將影象中的單個字元 或者是連續幾個字元所在的區域檢測出來 step 4.根據文字檢測結果從影象中將文字所在區域分割出...
文字檢測模型之CTPN
思路將文字定位框拆分成乙個個等寬 中為16 的小文字框,然後只需在y方向上做回歸。這裡仍然使用了rpn 可看faster rcnn 唯一不同的是這裡得到的候選區域 region proposal 是乙個等寬不等高的。這種小文字框也規避了網路感受野不足的問題。使用了cnn rnn的組合,這裡加入rnn...