科普時間 OCR是人工智慧的基礎之一

作為計算機視覺領域的乙個分支，ocr對於人機互動相當具有重要性。

在人機互動方面，大多人想到的都是語音互動，畢竟這是人類之間運用率最高的交流方式，且語音識別、自然語言理解等技術目前也發展的相當不錯。

但是，我們也不得不忽視這樣乙個事實：我們每天都被文字所包圍，像每天辦公的檔案、上課的板書、商品的介紹等等都是由文字組成的，並且這些文字在某一程度上也是語音互動的基礎，而這其中關乎乙個關鍵的技術——ocr (optical character recognition)，光學字元識別。

ocr是指光學裝置（掃瞄器、數位相機等）檢查紙上列印的字元，通過檢測暗、亮的模式確定其形狀，然後用字元識別方法將形狀翻譯成計算機文字的過程，其本質就是利用光學裝置去捕獲影象並識別文字，將人眼的能力延伸到機器上。此概念是在2023年由德國科學家tausheck最先提出來的，後來美國科學家handel也提出了利用技術對文字進行識別的想法。

在20世紀50年代，ibm就開始利用ocr技術實現各類文件的數位化，到了80年代，平板掃瞄器的誕生更是讓ocr進入了商用階段，但不管是哪個階段，那時的ocr裝置對於文字背景的要求非常之高，也需要很好的成像質量。

一般來講，ocr的工作原理包括四個部分：

影像輸入：通過光學裝置將轉入計算機後，系統會對進行一些處理，包括字元格式的分離、二值化處理、影象降噪、傾斜校正、文字特徵抽取等等，以提公升的精確度；

對比識別：根據字元的不同特徵，將之與資料庫進行對比，並利用對比後的識別文字與其可能的相似候選字群眾，根據前後的識別文字找出最合乎邏輯的詞，再作出更正，以加強比對的正確性；

人工校正：目前為止還沒有一款軟體的文字識別時百分之百的，所以還需要使用者親自校正，確保輸出的準確性；

影像輸出：結果輸出到txt、doc、exl等格式。

現實中，ocr的發展其實已經相當完善了，不過，隨著人們需求的變更，此種ocr已經不能滿足人們的要求。而在當前，自然環境ocr是人們最為關注的點。

相比於傳統的ocr，自然環境ocr最難的部分在於文字檢測（將文字從中提取出來），因為它具有極大的多樣性和明顯的不確定性。如文字中包含多種語言，每種語言含有多種字母，每個字母又可以有不同的大小、字型、顏色、亮度、對比度、排列和對齊方式等；因拍攝影象的隨意性，文字區域還可能會產生變形、模糊斷裂等現象。另外，背景也是一大干擾因素，如文字區域附近有非常複雜的紋理；非文字區域有著跟文字區域非常相似的紋理，比如窗戶、樹葉、柵欄、磚牆等。

文字檢測首先要從影象中切割出可能存在的文字，即候選連通區域，目前被採取最多的方法是mser（最大平穩極值區域）。當然，也有團隊在此基礎上開發出了自己的一套演算法，比如微軟研究院在傳統檢測方法er（極值區域）和mser基礎之上採用了對比極值區域cer（contrasting extremal region），cer是跟周圍的背景有一定對比度的極值區域，在低對比度的影象上比mser效果更好，而且獲得的候選連通區域數量遠小於er，提高了演算法的效率，並且，為了提高所獲得連通區域的質量，微軟又增加乙個演算法環節去增強cer。最後，微軟採取了一套基於淺層神經網路的文字/非文字分類演算法，進一步提高了對於連通區域字元的辨認率。

在此基礎之上，微軟研究院的成果也得到了世界的驗證。2023年8月，在瑞典首都斯德哥爾摩舉辦的國際模式識別大會（icpr）上，微軟亞洲研究院團隊公布的研究成果在自然場景文字檢測的標準資料集（icdar-2013測試集）上取得了92.1%的檢測精度和92.3%的召回率。據了解，此前業界最好技術的檢測精度是88.5%，而召回率只有66.5%。

論起ocr的應用前景的話，僅看其隸屬於計算機視覺領域的乙個分支，再聯絡到當前人工智慧的發展，其前景可想而知。再往細講，除了翻譯、智慧型購物意外，ocr未來最大的發展潛力在於人機互動。

眾所周知，人機互動一直是研究者追求的東西，但是目前也僅僅做到了語音互動和肢體互動。文字代表了人類的所有智慧型與思想，如果機械人能夠進行文字識別，那它將能夠進一步獲取知識、學習人類，進而與人類進行更為自然的互動，或是協助人類工作，提高效率。

2016-10-19 18:47

韓璐

科普時間 OCR是人工智慧的基礎之一

科普時間 OCR是人工智慧的基礎之一

科普時間 OCR是人工智慧的基礎之一

人工智慧基礎 什麼是人工智慧

相關推薦

人工智慧基礎什麼是人工智慧