中文ocr 資料集

該資料集包含12263張影象，訓練集8034張，測試集4229張，共11.4gb。大部分影象由手機相機拍攝，含有少量的螢幕截圖，影象中包含中文文字與少量英文文字。影象解析度大小不等。

文獻：

大賽提供20000張影象作為資料集，其中50%作為訓練集，50%作為測試集。主要由合成影象，產品描述，網路廣告構成。該資料集資料量充分，中英文混合，涵蓋數十種字型，字型大小不一，多種版式，背景複雜。檔案大小為2gb。

該資料集共1555張影象，11459文字行，包含水平文字，傾斜文字，彎曲文字。檔案大小441mb。大部分為英文文字，少量中文文字。訓練集：1255張測試集：300

http:// arxiv.org/pdf/1710.10400v

該資料集是從谷歌法國街景上獲得的一百多萬張街道名字標誌，每一張包含同一街道標誌牌的不同視角，影象大小為600*150，訓練集1044868張，驗證集16150張，測試集20404張。

http:// arxiv.org/pdf/1702.03970v1

該資料集，包括63686幅影象，173589個文字例項，包括手寫版和列印版，清晰版和非清晰版。檔案大小12.58gb，訓練集：43686張，測試集：10000張，驗證集：10000張

在複雜背景下人工合成的自然場景文字資料。包含858750張影象，共7266866個單詞例項，28971487個字元，檔案大小為41gb。該合成演算法，不需要人工標註就可知道文字的label資訊和位置資訊，可得到大量自然場景文字標註資料。

文獻：code: (英文版)

code 中文版)

合成文字識別資料集，包含9百萬張影象，涵蓋了9萬個英語單詞。檔案大小為10gb

資料利用中文語料庫，通過字型、大小、灰度、模糊、透視、拉伸等變化隨機生成，共360萬張，影象解析度為280x32，涵蓋了漢字、標點、英文、數字共5990個字元。檔案大小約為8.6gb

十。乙個專案資料集：360萬的中文資料訓練集，最後可以finetune到97.7%的驗證準確率