自然場景文字識別 基於筆畫寬度變換的文字檢測

2021-09-07 10:57:15 字數 2109 閱讀 3540

近期在學習自然場景(natural scenes)的文字識別(text recognition)問題,這一問題也是時下乙個很熱門的亟待解決的問題。在閱讀學習了一定量的文獻資料之後,有了一定收穫,本文提到的基於「筆畫寬度變換」(stroke width transform)的方法,是眼下個人看到比較認同的方法。

對於自然場景的文字識別,乙個非常重要的問題就在於怎樣從自然場景的中檢測與定位出文字資訊。考慮到文字的結構、畫素、幾何變形、背景複雜度、影象解析度等多種問題帶來的干擾,對於文字的檢測著實存在著不小的難度。

就本人所學習到的文獻中所提到的文字檢測定位的方法主要能夠分為三類:基於連通域的分析、基於邊緣特徵的分析、基於紋理特徵的分析。然而遺憾的是。因為以上的特徵並不單單僅僅屬於文字獨有的特徵。比方植物以及某些景物都有類似的特徵,這就意味著以上的方法還具有非常多興許的處理須要進行。何況存在的非常大的乙個問題是。對於文字的檢測。以上方法是否對全部的語言具有普適性。有待研究。

本文所討論的基於筆畫寬度變換的方法,是個人在學習中看到的比較推崇的方法。這一方法的乙個非常大的優勢在於,筆畫特徵基本上是屬於文字獨有的特徵(當然也不排除某些視覺景物的干擾,須要興許操作加以剔除)。而基於筆畫特徵。對於不同語言的文字是普適的,這是乙個極大的優勢。這一方法的乙個基礎的根據在於:統一的文字基本具有統一的筆畫寬度。本文主要對microsoft corporation的文獻detecting text in natural scenes with stroke width transform 進行一定的學習,並加以總結。作為分享。

以下就這一方法的幾個基本的部分進行描寫敘述說明,首先再次強調的是本文方法所基於的基礎現實是文字具有基本一致的筆畫寬度。

一、the stroke width transform :

1、利用canny edge detector對影象進行邊緣檢測,得到的每乙個邊緣畫素點p都具有乙個方向梯度值dp;

2、若p位於筆畫邊緣。dp一定大致垂直於筆畫方向,沿著射線 r=p+n*dp (n>=0)梯度查詢與之相應的還有乙個邊緣畫素點q,那麼dp與dq的方向是大致相反的(dp = dq ± π/6 ) ,此時會出現兩種情況:

(1)p找不到相應的匹配的q或者dp 與dq不滿足大致反向的要求。那麼該射線r 廢棄掉。

(2)假設找到滿足要求的q那麼在[p,q]這條路線上的每乙個畫素點都會被指定筆畫寬度屬性值||p-q||(歐式距離),除非該店已經被指定了乙個更小的筆畫寬度屬性值。

3、反覆步驟2,計算出全部未被廢棄的路線上的畫素的筆畫寬度值,演算法結束。

注意:(1)這一方法實質上就在對於每乙個可能屬於文字部分的畫素點與它最有可能所屬的筆畫建立聯絡,這一聯絡就是該筆畫的寬度。能夠想見的在未來的處理中,將會對該值相近的連通候選區域進行聚類。即覺得他們屬於同一筆畫。進一步的能夠構造出每乙個筆畫,形成文字區域。

(2)在上述的過程中。實際上是預設了針對於亮底暗字的正向文字,假設是對於暗底亮字的反向文字,那在步驟2中就須要沿著dp的返方向來查詢q。這樣,在實際演算法的推行過程中。是須要反覆以上過程兩次的:一次沿著dp方向,還有一次則沿著-dp方向。

二、finding letter candidates:

(1)計算每乙個連通候選區域各個畫素點筆畫寬度屬性值的最大差值,對於差值太大的情況加以排除,這能夠排除掉如樹葉這種區域,此處的 闕值設定為連通區域筆畫寬度屬性之平均值的一半;

(2)對於候選區域長寬比要求在0.1到10之間,不符合要求的剔除掉。對於電線桿等長寬比較大的區域能夠排除。

(3)一塊區域的邊界框包括不超過兩塊區域,以消除文字外圍包圍線之類(符號框架)。

(4)對於太大或太小的連通域也排除掉;

(5)單獨的字元通常不出如今影象中,當作雜訊剔除。

三、grouping letters into text lines:

這裡覺得文字是以線性的形式出現的。一行文字時有相似之處的,如:筆畫寬度、字幕寬度、高度、字元間距等。

假設兩候選字元滿足:

(1)具有相似筆畫寬(中值之比小於2.0)。

(2)高度比不超過2.0;

(3)距離不超過寬字元的三倍;

(4)顏色相近

等特徵,那麼就對滿足條件的字元聚類,形成text lines,實際上,這並不須要在文字的檢測中加以處理,在ocr的過程中是能夠進行的。

應用筆畫寬度變換(SWT)來檢測自然場景中的文字

應用背景 是盲人輔助系統,城市環境中的機器導航等計算機視覺系統應用的重要一步。獲取文字能夠為許多視覺任務提供上下文的線索,並且,影象檢索演算法的效能很大部分都依賴於對應的文字檢測模組。意義 傳統的ocr應用於掃瞄文字,所以其依賴於把文字從背景畫素中正確分離。這對於掃瞄文字來說是很簡單的,但是自然影象...

應用筆畫寬度變換(SWT)來檢測自然場景中的文字

應用背景 是盲人輔助系統,城市環境中的機器導航等計算機視覺系統應用的重要一步。獲取文字能夠為許多視覺任務提供上下文的線索,並且,影象檢索演算法的效能很大部分都依賴於對應的文字檢測模組。意義 傳統的ocr應用於掃瞄文字,所以其依賴於把文字從背景畫素中正確分離。這對於掃瞄文字來說是很簡單的,但是自然影象...

基於筆畫描述的文字識別OCR系統 技術說明

1.已排除的方法 以下方法經過我們編寫程式 來實踐驗證了其不可行性。1.1 遊程統計法 思路 統計出點陣中的任意一點向六個角度0 30 60 90 120 150 所能遍歷的點數。如圖2,最上一點往六個方向的最大值是 13,方向為上下方向 90 又如,最左一點往六個方向的最大值是30,方向為左右方向...