字元識別資料集,文件分析相關的資源

2021-06-19 13:11:48 字數 991 閱讀 2964

原創

一.一些作者的研究主頁

research/icdar2005.pdf

research/msc_thesis.pdf

teode campos:英國謝菲爾德大學,字元識別只是其研究很小的乙個方面。

jinyu zuo:美國西維吉尼亞大學博士,研究的是關於**文件結構分析,也是一小部分

jin chen:在讀博士,裡海大學,研究的是手寫字元識別,雜訊文件分析

有關ocr,文件方面的研究還算比較成熟,現在也不算是乙個熱點(一家之言),作者主頁比較難找,相關**也少,一般是看**,搜尋作者的名字,用google,一般第乙個是作者的主頁,上面有研究的文件,有的時候還有**。

二.相關的資料集

1. 場景,印刷字元

3. 機器學習的資料集,裡面也有不少關於文件的資料集。

4.計算機視覺的資料集,也有一些字元文件的

5. 手寫數字的資料集,年代比較久了。

6.北大方正關於**識別的資料集。

三.相關的源程式

1.github上面的開源專案也是第乙個作者編寫的(matlab)

其他方面的c語言,android,ios平台等等。

2.這篇部落格上也有,matlab語言的偏基礎,可能需要翻牆

3. mathworks,fileexchange上的**,需要註冊賬號。

4.開源的ocr資源,包括一些軟體,庫等

5. ocr開發包開源軟體。

合成中文識別資料集的相關repo

介紹合成中文識別資料集的相關repo 修改自synthtext cvpr2016 用於生成自然場景文字影象。備註 但 給人的感覺是很混亂,沒有清晰結構,目前作者也停止了維護,基於opencv2.4,版本過舊無法pip直接安裝或者需要自己改動一些 乙個合成資料生成器用於文字識別 備註 結構清晰,作者一...

開源標準資料集 mnist(手寫字元識別)

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!可以看出,mnist.pkl.gz 分為訓練集,校驗集和測試集 training data,valid data,test data load data training data,valid data,test data 均是二元 tuple t...

骨骼的動作識別資料集 人體骨骼動作識別

參賽者須同意如下保密規則 1.保密資訊範圍 平台方向參賽者披露或提供的全部資訊,以及參賽者因參加本次大賽從平台方處獲得 知曉所得的商業秘密和其他所有非第三方所知的資訊,包括但不限於 1 平台方提供的 語音 資料 等 2 平台方從第三方處獲得但應承擔保密義務的資料 資訊 3 其他通常不為平台方以外的人...