前 言
目前深度學習方法做文字檢測比較普遍,但是也存在一些時候gpu資源不夠,這時候就需要一些其他的方法來檢測文字資訊,本文主要介紹不使用深度學習進行文字檢測的方法。文字檢測的瓶頸主要是處理那些對比度不同或嵌入複雜背景的文字。為了解決這些困難,本文主要介紹的方法可以基於不變的特徵,例如邊緣強度,邊緣密度和水平分布。首先,它應用邊緣檢測,並使用較低的閾值來過濾掉非文字邊緣。然後,選擇區域性閾值以保留低對比度文字並簡化高對比度文字的複雜背景。接下來,用兩個文字區域增強operator,以突出顯示具有高邊緣強度或高邊緣密度的那些區域。最後,從粗到細的檢測可以有效地定位文字區域。實驗結果表明,本文提出的方法在對比度,字型大小,字型顏色,語言和背景複雜性方面均十分可靠。
01
當文字嵌入複雜的背景中時,文字的對比度,即文字的顏色(或亮度)與其區域性背景之間的差異,會在影象的不同區域發生變化。因此,使用全域性閾值分隔文字和背景的方法將丟失低對比度文字。例如,(圖a)顯示了具有不同對比度文字的影象。應用sobel運算子後,如果閾值是40(圖b),則所有文字都會保留,閾值為65,則低對比度文字消失(圖c)。
另外,不同語言的字元具有各種筆畫結構。使用筆劃密度約束的方法可以成功檢測英語等。但是無法正確檢測亞洲語言文字,例如中文。例如,區域增長方法使用小尺寸的視窗掃瞄影象並將每個視窗分類為文字或非文字,然後合併相鄰的文字塊形成文字區域。由於每個漢字占用相同的空間,而筆劃數從1到大於20不等,因此筆劃少的字元將不會被筆劃密度約束分類為文字。
字元大多是直立的,並在與水平線對齊的有限距離內成簇出現,並且它們顯示出空間凝聚力–同一文字字串的字元具有相似的高度,方向和間距。
所以,基於邊緣強度,邊緣密度和水平分布,可以設計一種有效的方法來檢測複雜背景下的多語言文字。
02
彩色邊緣檢測器使用sobel運算子檢測yuv顏色空間中的邊緣。最終的顏色邊緣圖是y,u和v通道的三個邊緣圖的並集。但是,由於閾值太高而無法保留低對比度文字,因此不使用快速熵閾值化。取而代之的是,應用由邊緣強度直方圖確定的低閾值,以僅消除絕對的非文字點。首先,在直方圖中找到排名0-20的峰,並獲得其周圍的平均高度;然後,低閾值是峰後高度低於平均高度10%的第乙個位置。在全域性閾值化之後,非邊緣點的值為零,而邊緣點的值為其各自的邊緣強度。
如果背景是簡單的,則可以通過低閾值輕鬆檢測甚至低對比度的文字字串,而嵌入複雜背景中的文字字串需要更高的閾值才能進一步簡化背景。因此,有必要根據每個區域性區域的背景複雜度確定適當的閾值。定義乙個大小為h×w的視窗(h和w分別與影象的高度和寬度成比例)。視窗首先在水平方向上然後在垂直方向上逐步掃瞄邊緣特徵圖,如下圖所示。
在每個步驟中,視窗的原點僅在水平方向上移動w / 2(或在垂直方向上移動h / 2),因此可以補償因使用視窗邊框分割字元而導致的不準確性。視窗覆蓋的邊緣圖部分是要分析的區域性區域。
背景複雜度定義如下。
如果畫素是非邊緣點,將其稱為空白點。如果該區域性區域中全部空白行的數量不少於10%×h,則背景複雜度很簡單。簡單區域不再需要閾值,而複雜區域則需要更高的閾值。從該區域的區域性直方圖中可以找到新的閾值。令max和min分別為最高邊緣強度和最低邊緣強度。在[min,max]的下半部分找到低峰,在[min,max]的上半部分找到高峰,然後將新閾值確定為低峰和高峰之間的最低位置。在該區域中強度低於tlocal的邊緣點標記。掃瞄完整個邊緣圖後,將刪除所有帶有標誌的邊緣點。應用選擇性區域性閾值,可以保持簡單背景下的低對比度文字,同時簡化了高對比度文字的背景。
通過選擇性區域性閾值選取出在區域性背景中明顯的邊緣點。然而,僅利用了邊緣強度特徵。為了通過邊緣密度功能進一步突出顯示文字區域,通過邊緣強度平滑(ess)運算元和邊緣聚類功率(ecp)運算元,其卷積核心如下圖所示。
兩個核中的權重均來自歐幾里得距離。最後是使用整數來加快卷積速度,因此將卷積結果除以權重之和(ess的權重為220,ecp的權重為100)。ess權重與從中心向外的距離的平方成反比。它反映了中心邊緣點周圍的平均邊緣強度。由於區域性閾值處理可能會降低文字區域中的邊緣密度,因此首先使用如下等式對邊緣圖中每個表示為em(x,y)的點執行ess運算元,以增加邊緣密度。
ess特徵圖是平滑的邊緣強度特徵圖。然後,通過僅對ess運算元中的非零點執行ecp運算元來增強高邊緣密度區域,如下公式所示。
ecp權重與從中心向外的距離的平方成正比,卷積結果除以其自身的ess值。如果ecp有許多相鄰的邊緣點具有更高或相似的邊緣強度,則無論邊緣點的ess值是什麼,ecp都僅會突出顯示中心點周圍的邊緣密度。最後,通過如下公式對ess值和ecp值進行積分,並更新邊緣圖。
通常,ess和ecp,α為0.5。
在第一階段,它使用粗水平投影和粗垂直投影將邊緣圖粗略地分割為文字塊。然後,在第二階段,它通過精細的水平投影和精細的垂直投影來精確地定位文字區域。請注意,只有粗略的水平投影是整體投影,其他都是矩形區域中的區域性投影。最後,根據平均密度,精細的垂直投影中的峰分布和密度分布的規則檢查文字狀區域非文字區域。由於預處理顯著突出了類似文字的區域,因此可以輕鬆快速地找到文字字串。下面給出一些結果:
機器學習演算法工程師
值得一看的聊天技巧
泡妞是一門技術,可以更好的指引我們追求幸福。不提倡為了泡妞而泡妞的行為,玩弄拋棄mm是可恥的。害人有可能終害己哦,小心被死纏爛打。下面開始學習吧.mm 你幾歲?mm測試你 我 你猜?我給她乙個圈套 mm 我猜你26 mm跳進圈套 我 實際上我30 她先跳了,所以我再跳 mm 你幾歲?mm測試你 我 ...
狼的格言,值得一看
沒有捕捉不到的獵物,就看你有沒有野心去捕 沒有完成不了的事情,就看你有沒有野心去做。沒有獵物我們就去尋找獵物,發現獵物我們就去追逐獵物。尋找 發現 追逐 獲得,這就是狼的生活要素。儘管面對上萬隻的黃羊,面對兇猛的老虎,我們都毫不退縮。我們不缺乏成功的信念,但是我們絕不是痴心妄想,只會送死的傻瓜。追逐...
值得一看的創業書籍推薦
行業相關,這些年親自讀了不少創業書籍。p.s.很多小夥伴向筆者抱怨說這本書買不到,我只想說請善用搜尋引擎,這本書只能從其官網獲得。對於一名創業者或管理者而言,不要什麼都想別人為你做好!除此之外,最重要的是,這本書還還包括了大量的針對創業者的實用的企業管理方面的指南。創業的過程本身就是做好管理的過程,...