中文ocr 資料集

2021-10-02 08:26:51 字數 1155 閱讀 2411

該資料集包含12263張影象,訓練集8034張,測試集4229張,共11.4gb。大部分影象由手機相機拍攝,含有少量的螢幕截圖,影象中包含中文文字與少量英文文字。影象解析度大小不等。

文獻:

大賽提供20000張影象作為資料集,其中50%作為訓練集,50%作為測試集。主要由合成影象,產品描述,網路廣告構成。該資料集資料量充分,中英文混合,涵蓋數十種字型,字型大小不一,多種版式,背景複雜。檔案大小為2gb。

該資料集共1555張影象,11459文字行,包含水平文字,傾斜文字,彎曲文字。檔案大小441mb。大部分為英文文字,少量中文文字。訓練集:1255張 測試集:300

http:// arxiv.org/pdf/1710.10400v

該資料集是從谷歌法國街景上獲得的一百多萬張街道名字標誌,每一張包含同一街道標誌牌的不同視角,影象大小為600*150,訓練集1044868張,驗證集16150張,測試集20404張。

http:// arxiv.org/pdf/1702.03970v1

該資料集,包括63686幅影象,173589個文字例項,包括手寫版和列印版,清晰版和非清晰版。檔案大小12.58gb,訓練集:43686張,測試集:10000張,驗證集:10000張

在複雜背景下人工合成的自然場景文字資料。包含858750張影象,共7266866個單詞例項,28971487個字元,檔案大小為41gb。該合成演算法,不需要人工標註就可知道文字的label資訊和位置資訊,可得到大量自然場景文字標註資料。

文獻:code: (英文版)

code 中文版)

合成文字識別資料集,包含9百萬張影象,涵蓋了9萬個英語單詞。檔案大小為10gb

資料利用中文語料庫,通過字型、大小、灰度、模糊、透視、拉伸等變化隨機生成,共360萬張,影象解析度為280x32,涵蓋了漢字、標點、英文、數字共5990個字元。檔案大小約為8.6gb

十。乙個專案資料集:360萬的中文資料訓練集,最後可以finetune到97.7%的驗證準確率

C 使用OCR識別中文

現在市面上的可用的ocr 光學字元識別 元件還是比較多的,其中有大名鼎鼎的tesseract 還有非常專業的asprise 儘管它們非常專業 非常好用,但是用起來並不省事 因為它們對中文的支援並不友好 如果公司是專業開發ocr套件,願意耗資長時間的深入研發,那麼比較推薦tesseract,它可以進行...

Tesseract OCR 玩轉OCR中文識別

一 準備工作 二 識別 1 進入cmd,進入到要識別的的路徑下。2 輸入命令 tesseract 名稱 生成的結果檔案的名稱 字型檔 tesseract test.jpg result l chi sim三 訓練資料1 將轉換成tif格式,用於後面生成box檔案。可以通過畫圖,然後另存為tif即可。...

OCR資料閉環任務

資料夾 備註classify 基於pytorch的分類網路,用於對新能源車牌,非新能源車牌進行初步分類 crnn 基於pyrorch的crnn文字識別網路,用於訓練文字識別模型 doc資料閉環總結文件和清洗執行時的檔案掛載對應關係 scripts 資料閉環,指令碼清洗檔案,其中business li...