OCR技術初識

ocr英文全稱是optical character recognition，中文叫做光學字元識別。它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來，並轉換成一種計算機能夠接受、人又可以理解的格式。這一概念最早於 1929 年由德國科學家 tausheck 提出。資訊資源數位化工作的目標物件，是大量甚至海量的紙質載體或固體載體形態的文獻資源，ocr 憑藉自身的智慧型識別及批量操作效能得以在資訊資源數位化工作中廣泛應用。

影象分析->預處理->行列切割->字元識別->後處理識別矯正

ocr 文字識別，是資訊資源數位化 ocr 識別生命週期中的最後階段，是決定識別準確度的關鍵階段。

識別效果的好壞直接影響了後期的處理。

其最新版本3.0已經支援中文ocr，並提供了乙個命令列工具，但其識別效率仍然存在諸多問題。

對於一些場景簡單的識別，比如文字種類少，規整，清晰度較高的影象，首先定義出文字模板，例如數字（0~9），字母（a~z，a~z），然後用該模板滑動匹配影象上的字元，這種策略雖然簡單但是相當有效。但是應用範圍太窄，遇到模板庫大的情況就不適用了。

特徵設計、特徵提取、分類得出結果

第一步是特徵設計和提取，特徵設計就是要為字元設計它獨有的的特徵，來為後面的特徵分類做好準備。字元有啥特徵呢？有結構特徵，即字元的端點、交叉點、圈的個數、橫線豎線條數等等，都是可以利用的字元特徵。比如「品」字，它的特徵就是它有3個圈，6條橫線，6條豎線。除了結構特徵，還有大量人工專門設計的字元特徵，據說都能得到不錯的效果。最後再將這些特徵送入分類器（svm）做分類，得出識別結果。這種方式最大的缺點就是，人們需要花費大量時間做特徵的設計，這是一件相當費工夫的事情。通過人工設計的特徵（例如hog）來訓練字元識別模型，此類單一的特徵在字型變化，模糊或背景干擾時泛化能力迅速下降。而且過度依賴字元切分的結果，在字元扭曲、粘連、雜訊干擾的情況下，切分的錯誤傳播尤其突出。

在ocr系統中，人工神經網路主要充當特徵提取器和分類器的功能，輸入是字元影象，輸出是識別結果。

但是神經網路同樣包含缺點，其需要大量的訓練資料，並且耗時巨大。

文字識別階段 ocr 軟體的效能優劣主要體現在對形近字元的辨識、對影象雜訊的免疫力、對標點符號的辨識、數字影象預處理能力、能夠辨識的內容範圍、互動介面便捷性、軟體自學習功能等 7 個方面。

形近字元（如「籍」和「藉」、「璧」和「壁」）之間在筆畫邊緣部分存在較大相似度，辨識過程中容易造成 ocr 軟體的誤判。

數字影象的預處理操作，一般都對數字影象中的雜訊進行了降噪處理。但是，受數字影象預處理程度、文字型數字影象自身質量等因素影響，在對文字型數字影象進行 ocr 識別時數字影象中往往仍然存在著不同程度的雜訊。

在對文字型數字影象（尤其是原始印刷、排版質量欠佳的數字影象）進行正式識別之前，需要借助 ocr 軟體的影象預處理功能對數字影象進行微調，微調效果對識別準確度有直接影響。ocr 軟體的影象預處理功能主要包括影象旋轉、傾斜矯正、剪下以及亮度、對比度、飽和度、清晰度調整等。

如何提高影象預處理能力

(1)影象傾斜矯正

文字型數字影象中的字元一旦偏離水平或垂直方向，影響 ocr 軟體對其進行文字定位和字元分割，進而影響後續的識別準確度。因此，ocr 識別之前應進行數字影象傾斜校正，ocr 軟體應具備自動校正和人工校正兩種校正功能。

（2）影象反白

數字影象經二值化處理之後，數字影象中的字元圖案呈黑色，其餘背景部分呈白色。經反白處理之後，數字影象中的字元圖案呈白色，其餘背景部分呈黑色。借助影象反白處理，可以在黑色背景下把存在於數字影象中的噪點凸顯出來，便於後續的降噪處理。

（3）影象旋轉

因原始文獻資料印刷排版質量或者數字掃瞄成像階段操作不慎，容易造成文字型數字影象在水平或垂直方向上產生一定角度的傾斜。為確保對文字型數字影象的精確識別，ocr 軟體應具備影象旋轉功能，一般應支援在順時針（或逆時針）方向上連續旋轉 90 度，並支援在順時針（或逆時針）方向上連續旋轉任意角度以供選擇。

（4）影象剪裁

因原始文獻資料印刷排版質量欠佳，或流通使用過程中產生汙損，或在數字掃瞄成像階段操作不慎，容易在文字型數字影象邊沿或文字區域形成明顯的噪點。借助數字影象剪裁功能，ocr軟體可以輕鬆去除這部分噪點。

OCR技術初識

OCR技術概覽

關於OCR識別技術

OCR技術識別文件的技術

OCR技術初識

OCR技術概覽

關於OCR識別技術

OCR技術識別文件的技術

相關推薦