經過前面文字定位得到單行的文字區域之後,我們就可以想辦法將單行的文字切割為單個的字元了。因為第三步的模型是針對單個的字元建立的,因此這一步也是必須的。
均勻切割
基於方塊漢字的假設,事實上最簡單的切割方法是均勻切割,也就是說不加任何判斷,直接按照高度來將單行文字切割為乙個個的正方形。這種思路可以應對大部分的單行文字,如下圖。
當然,均勻切割的弊端也是很明顯的。 大多數漢字都是方塊漢字,但多數英語和數字都不是,因此如果出現中英文混排的時候,均勻切割就失效了,如上圖下。
統計切割
從圖15中可以看出,經過前面的操作,字與字都被很好地分離開了。 因此,另外一種比較簡單的思路是對單行的文字進行垂直方向的求和,和為0的所在的列就是被切割的的列。
用這種統計的思路可以很好地解決中英文混排的單行文字分割的問題,但是它也存在一定的弊端。 最明顯的就是諸如「小」、「的」等字就被切割開為兩部分了。
前後比較
乙個更好的思路是結合前面兩部分結果,通過比較前後兩部分區域是否組成方形來確定是否切割。具體步驟是:
1、統計求和的思路,得出候選的切割線;
2、如果該候選切割線到左右兩條候選切割線的距離之和超過寬長度的1.2倍,那麼該候選切割線確定為切割線;
3、如果得到的區域是乙個明顯的長條矩形,並且沒辦法按照上面的兩個步驟切割,那就均勻切割
這三個步驟比較簡單,基於兩個假設
1、數字、英文本元的低與高之比大於60%;
2、漢字的底與高之比低於1.2.經過測試,該演算法可以很好的用於前面步驟所提取的文字特徵的分割。
OCR光學字元識別
沒搞過計算機視覺,只好拿來主義了 根據網上的推薦 1.google vision,識別效果還不錯,收費,而且對於複雜文字也不是很理想,所以繼續尋找開源 2.tesseract,最負盛名的開源識別軟體,據說google vision內部也是基於此。就我們公司的需求來說 提取中嵌入的文字 tessera...
開源OCR光學字元識別
優秀的開源ocr軟體包括 tesseract 原本由惠普開發的影象識別類庫tesseract ocr已經更新到2.04,就是最近google支援的那個ocr。原先是惠普寫的,現在open source了。ocropus ocropus的 tm 是乙個先進的檔案分析和ocr系統,採用可插入的布局分析,...
開源OCR光學字元識別
優秀的開源ocr軟體包括 tesseract 原本由惠普開發的影象識別類庫tesseract ocr已經更新到2.04,就是最近google支援的那個ocr。原先是惠普寫的,現在open source了。ocropus ocropus的 tm 是乙個先進的檔案分析和ocr系統,採用可插入的布局分析,...