文字識別 文字檢測資料集

2021-09-29 02:47:48 字數 1530 閱讀 5524

1、chinese text in wild (ctw)

包含平面文字,凸起文字,城市文字,農村文字,低亮度文字,遠處文字,部分遮擋文字。

影象大小2048*2048,資料集大小為31gb。

(8:1:1)比例訓練集(25887張影象,812872個漢字),測試集(3269張影象,103519個漢字),驗證集(3129張影象,103519個漢字)。

2、reading chinese text in the wild(rctw-17)

12263張影象,訓練集8034張,測試集4229張,共11.4gb。

大部分影象由手機相機拍攝,含有少量的螢幕截圖,影象中包含中文文字與少量英文文字。影象解析度大小不等。

文獻:3、icpr mwi 2018 挑戰賽

20000張影象作為資料集,其中50%作為訓練集,50%作為測試集。主要由合成影象,產品描述,網路廣告構成。該資料集資料量充分,中英文混合,涵蓋數十種字型,字型大小不一,多種版式,背景複雜。檔案大小為2gb。

4、total-text

共1555張影象,11459文字行,包含水平文字,傾斜文字,彎曲文字。檔案大小441mb。大部分為英文文字,少量中文文字。訓練集:1255張 測試集:300張。

文獻:http:// arxiv.org/pdf/1710.10400v

5、google fsns(谷歌街景文字資料集)

從谷歌法國街景上獲得的一百多萬張街道名字標誌,每一張包含同一街道標誌牌的不同視角,影象大小為600*150,訓練集1044868張,驗證集16150張,測試集20404張。

文獻:http:// arxiv.org/pdf/1702.03970v1

6、coco-text

63686幅影象,173589個文字例項,包括手寫版和列印版,清晰版和非清晰版。檔案大小12.58gb。

訓練集:43686張,測試集:10000張,驗證集:10000張

7、synthetic data for text localisation

在複雜背景下人工合成的自然場景文字資料。包含858750張影象,共7266866個單詞例項,28971487個字元,檔案大小為41gb。該合成演算法,不需要人工標註就可知道文字的label資訊和位置資訊,可得到大量自然場景文字標註資料。

文獻:code: (英文版)

code 中文版)

8、synthetic word dataset

合成文字識別資料集,包含9百萬張影象,涵蓋了9萬個英語單詞。檔案大小為10gb

9、caffe-ocr中文合成資料

資料利用中文語料庫,通過字型、大小、灰度、模糊、透視、拉伸等變化隨機生成,共360萬張,影象解析度為280x32,涵蓋了漢字、標點、英文、數字共5990個字元。檔案大小約為8.6gb。

參考文章:

抑鬱檢測用文字資料集

clef ersik 2017 該資料集由887個reddit使用者組成,分為抑鬱症患者 positive 和正常人 negative 兩類。每個使用者的文字按時間順序排列,並被分成10個chunk。其中chunk1包括最舊的10 的訊息,chunk2包括第二個最舊的10 的資訊,依此類推。rsdd...

OpenCV 文字檢測與識別模組

opencv的文字檢測模組textdetectorcnn中使用了textboxes 具有單個深度神經網路的快速文字檢測器 鏈結位址為 其中已經訓練過的檔案 函式名內容 位址modelweightsfilename 描述分類器體系結構的prototxt檔案的相對或絕對路徑。modelweightsfi...

文字識別 文字識別的應用

是否有過這樣的經歷,在網上發現一篇好文,卻沒辦法複製,怎麼辦?手動抄錄嗎,我想如果沒有ocr,大部分人會這麼做。ocr是一種影象處理技術,又叫文字識別,能夠將影象中不可複製的文字轉換成可編輯的文字形式,簡單來說,使用者對無法複製的文字進行拍照,通過文件識別軟體進行識別,即可獲得可編輯 可儲存的電子文...