文字識別文字檢測資料集

1、chinese text in wild (ctw)

包含平面文字，凸起文字，城市文字，農村文字，低亮度文字，遠處文字，部分遮擋文字。

影象大小2048*2048，資料集大小為31gb。

(8:1:1)比例訓練集(25887張影象，812872個漢字)，測試集(3269張影象，103519個漢字)，驗證集(3129張影象，103519個漢字)。

2、reading chinese text in the wild(rctw-17)

12263張影象，訓練集8034張，測試集4229張，共11.4gb。

大部分影象由手機相機拍攝，含有少量的螢幕截圖，影象中包含中文文字與少量英文文字。影象解析度大小不等。

文獻：3、icpr mwi 2018 挑戰賽

20000張影象作為資料集，其中50%作為訓練集，50%作為測試集。主要由合成影象，產品描述，網路廣告構成。該資料集資料量充分，中英文混合，涵蓋數十種字型，字型大小不一，多種版式，背景複雜。檔案大小為2gb。

4、total-text

共1555張影象，11459文字行，包含水平文字，傾斜文字，彎曲文字。檔案大小441mb。大部分為英文文字，少量中文文字。訓練集：1255張測試集：300張。

文獻：http:// arxiv.org/pdf/1710.10400v

5、google fsns（谷歌街景文字資料集）

從谷歌法國街景上獲得的一百多萬張街道名字標誌，每一張包含同一街道標誌牌的不同視角，影象大小為600*150，訓練集1044868張，驗證集16150張，測試集20404張。

文獻：http:// arxiv.org/pdf/1702.03970v1

6、coco-text

63686幅影象，173589個文字例項，包括手寫版和列印版，清晰版和非清晰版。檔案大小12.58gb。

訓練集：43686張，測試集：10000張，驗證集：10000張

7、synthetic data for text localisation

在複雜背景下人工合成的自然場景文字資料。包含858750張影象，共7266866個單詞例項，28971487個字元，檔案大小為41gb。該合成演算法，不需要人工標註就可知道文字的label資訊和位置資訊，可得到大量自然場景文字標註資料。

文獻：code: (英文版)

code 中文版)

8、synthetic word dataset

合成文字識別資料集，包含9百萬張影象，涵蓋了9萬個英語單詞。檔案大小為10gb

9、caffe-ocr中文合成資料

資料利用中文語料庫，通過字型、大小、灰度、模糊、透視、拉伸等變化隨機生成，共360萬張，影象解析度為280x32，涵蓋了漢字、標點、英文、數字共5990個字元。檔案大小約為8.6gb。

參考文章：

文字識別 文字檢測資料集