摘要
本文給出了一種在自然影象中檢測和識別文字的演算法。我們首先獲得由盲人和正常目標物件拍攝的城市影象的資料集。接下來,我們執行文字區域的統計分析以確定哪些影象特徵是文字的可靠指示符並且具有低熵(即,特徵響應對於所有文字影象類似)。我們通過使用關於概率的聯合概率來獲得弱分類器。這些弱分類器用作adaboost機器學習演算法的輸入以訓練強分類器。在實踐中,我們訓練了乙個級聯與4強分類器包含79個特徵。自適應二值化和擴充套件演算法被應用於由級聯分類器選擇的那些區域。
1.介紹
這篇文章介紹了乙個檢測和識別城市背景中的文字演算法。比如街道標記,醫院標記和汽車車牌號等。這些資料一部分用於訓練演算法一部分用於測試演算法效能。
演算法的第乙個也是最重要的部分是通過adaboost學習演算法對標記資料進行訓練的強分類器。第二個元件是作用於文字區域候選的擴充套件和二值化演算法。第三個元件是作用於二進位製化區域的ocr軟體程式(當直接應用於影象時,ocr軟體給出的效能差得多)。
2.前期工作
中的檢測文字已經有幾個成功的方法。一些人集中在檢測個別字母。 我們在本文中報告的效能優於lucas等人報告的效能,但資料集是不同的,需要在相同的資料集上進行更精確的比較。 我們將使我們的資料集可用於測試。
3.the datasets
我們使用兩個影象資料集,乙個用於訓練adaboost學習演算法裡乙個用於測試它。
4.對adaboost的特徵選擇
adaboost演算法是用於組合一組弱分類器以產生強分類器的方法。弱分類器對應於影象特徵。通常,預先指定大量的特徵集合然後演算法選擇哪個和如何組合他們。問題是,特徵集的選擇對於演算法的成功和透明度是至關重要的。viola和jones用於面部檢測的一組特徵包括haar基函式的子集。但是除了計算效率之外,沒有理由選擇這種特徵集。還有文字和面部刺激之間的重要差異,因為文字影象的每個畫素的空間變化遠大於面部。面部特徵,例如眼睛,對於任何面部都在大致相同的空間位置中並且具有相似的外觀。但是文字中的字母的位置是多變的,並且字母的形狀不同。理想地,我們應該選擇在所有文字區域上給出相似結果的資訊特徵,並且因此具有低熵,並且還有利於區分文字和非文字。例如,我們對齊來自文字資料集的樣本(不需要精確對準),並且分析每個畫素處的x和y導數濾波器的模量的響應。我們的第一組特徵是基於這些觀察。通過對區域取平均,我們獲得具有較低熵的特徵。我們在子視窗內設計塊模式,對應於水平和垂直導數。我們還設計了三個對稱的塊圖案,我們通過計算概率分布從這些特徵構建弱分類器。形式上,好的特徵f(i)將確定兩個概率分布p(f(i)|text)和p(f(i)|non-text).我們可以通過使用對數似然比檢驗獲得弱分類器.我們還有乙個更複雜的第二類功能。這些包括基於強度,梯度方向和強度梯度的直方圖的測試。在理想的文字影象中,我們將能夠直接從強度直方圖將畫素分類為文字或背景,該直方圖應該具有對應於文字和背景平均強度的兩個峰值。我們的第三個,也是最後乙個特徵類,基於執行邊緣檢測,通過強度梯度閾值,然後邊緣連線。
5.學習adaboost
6.擴充套件和二進位製化
我們的下一階段產生二進位制文字區域,用作ocr讀取階段的輸入。除了二值化之外,我們必須擴充套件由adaboost強分類器找到的文字區域,因為這些區域有時會在文字的開始和結束處遺漏字母或數字。我們開始應用自適應二指化由adaboost強分類器檢測的文字區域。這些估計用於將文字的搜尋擴充套件到由adaboost檢測到的區域的左側,右側,上方和下方的區域。 然後在這些擴充套件的文字區域中應用二進位製化。
7.文字閱讀
列舉一些失敗的案例,大多數這些錯誤對應於模糊或嚴重陰影的文字。對於由adaboost強分類器正確檢測的286個擴充套件文字區域(加上擴充套件/二進位製化),我們獲得了正確的讀取率為93.0%(比例字正確讀取)。ocr演算法有時會錯誤地分類由adaboost找到的假陽性文字區域並將它們分類為文字。
8.總結
本文使用adaboost演算法來學習乙個強分類器,用於在無約束的城市場景中檢測文字。關鍵要素是選擇特徵集,選擇具有正熵訓練樣本的低熵的特徵(以便他們給出類似的響應 對於任何文字輸入)。 此外,我們使用對數似然比測試對特徵對的聯合概率分布。 與viola和jones用於面部檢測的系統相比,所得到的系統很小,只需要91個濾波器和4層級聯。為了證明我們的方法的有效性,我們使用它作為系統的前端,其包括擴充套件和二進位製化演算法,然後是商業ocr系統。 所產生的效能非常有效。
本人菜鳥讀文獻的第一篇文章終於磕磕碰碰的讀完了,感覺效果非常不理想,很多東西無法理解,內容有很大確實,需要提公升的地方很多,再接再厲了。
菜鳥讀文獻系列(三)
end to end text recognition with convolutional neural networks 卷積神經網路的端到端文字識別 摘要 在自然影象中的完全端到端文字識別是乙個具有挑戰性的問題,近來已經受到極大關注。在這一領域的傳統系統依靠精心設計的模型結合仔細手工工程特徵或...
怎麼讀文獻
拿到一篇文獻後,不妨先問自己幾個問題,帶著問題讀文獻效率會很高 這篇文章屬於什麼領域或方向?可以分類建立資料夾,讓讀過的文獻融入自己的知識體系。解決了什麼問題?為什麼這個問題這麼重要?使用了什麼方法和模型?為什麼這個方法可以解決這個問題?核心結論是什麼?下一步還可以怎麼做?其他 tips 對於陌生的...
讀文獻「大資料可視分析綜述」
大資料具有4v特徵,即 體量巨大 volume 型別繁多 variety 時效性高 velocity 以及價值高密度低 value 大資料分析的理論和方法研究可以從兩個維度展開 一是從機器或計算機的角度出發,強調機器的計算能力和人工智慧,以各種高效能處理演算法 智慧型搜尋與挖掘演算法等為主要研究內容...