天池 街景字元編碼識別 賽題理解

2021-10-06 07:31:47 字數 2114 閱讀 4654

評測指標

結果提交

賽題思路分析

資料集介紹

賽題資料**自google街景影象中的門牌號資料集(the street view house numbers dataset, svhn),並根據一定方式取樣得到比賽資料集。訓練集資料報括3w張**,驗證集資料報括1w張**,每張**包括顏色影象和對應的編碼類別和具體位置

*資料集樣本展示

目標識別中所有的字元

字段表所有的資料(訓練集、驗證集和測試集)的標註使用json格式,並使用檔名進行索引。如果乙個檔案中包括多個字元,則使用列表將字段進行組合。

field

description

top左上角座標x

height

字元高度

left

左上角最表y

width

字元寬度

label

字元編碼

注:資料集**自svhn,網頁鏈結並進行匿名處理和噪音處理,須使用比賽給定的資料集完成訓練。

s co

re=編

碼識別正

確的數量

測試集圖

片數量score=\frac

score=

測試集圖

片數量編

碼識別正

確的數量

​提交結果的格式與sample_submit.csv中的格式一致,字尾名為csv。

如:file_name, file_code

賽題本質是分類問題,需要對的字元進行識別。但賽題給定的資料中不同中包含的字元數量不等,如下圖所示。有的的字元個數為2,有的字元個數為3,有的字元個數為4。

字元屬性

字元:42 字元個數:2

字元:241 字元個數:3

字元:7358 字元個數:4

簡單入門思路:定長字元識別

可以將賽題抽象為乙個定長字元識別問題,在賽題資料集中大部分影象中字元個數為2-4個,最多的字元 個數為6個。

因此可以對於所有的影象都抽象為6個字元的識別問題,字元23填充為23***x,字元231填充為231***。

經過填充之後,原始的賽題可以簡化了6個字元的分類問題。在每個字元的分類中會進行11個類別的分類,假如分類為填充字元,則表明該字元為空。

專業字元識別思路:不定長字元識別

在字元識別研究中,有特定的方法來解決此種不定長的字元識別問題,比較典型的有crnn字元識別模型。

在本次賽題中給定的影象資料都比較規整,可以視為乙個單詞或者乙個句子。

專業分類思路:檢測再識別

在賽題資料中已經給出了訓練集、驗證集中所有中字元的位置,因此可以首先將字元的位置進行識別,利用物體檢測的思路完成。

此種思路需要構建字元檢測模型,對測試集中的字元進行識別。可以參考物體檢測模型ssd或者yolo來完成。

街景字元編碼識別賽題理解

賽題的資料為街景字元,類似於mnist資料集,但是更加困難,每張解析度都很低,中的字元有大有小,存在尺度不一致的問題 按照賽題的要求只要識別是每張包含幾個字元,每個字元是什麼就可以了,這樣可以簡單將其定義為乙個影象分類問題,但是每個的字元個數不確定,而且位置不確定,因為每個字元的類別僅僅與相應的區域...

DW街景字元編碼識別 賽題理解

此次專案為datawhale和阿里天池合作舉辦的cv入門賽事街道字元識別,採用深度學習模型。該任務較早見於花書的作者古德費洛在12 13年在谷歌做出的研究。當時谷歌需要對極大的街景門牌號資料集進行數字提取以使每乙個地點能在谷歌地圖上有正確的門牌號資訊。這樣乙個轉碼專案必然要消耗極大的人力物力,因此當...

天池 Datawhale 街景字元編碼識別

天池 datawhale 街景字元編碼識別 task1 賽題理解 需要選手 真實場景下的字元識別,這是乙個典型的字元識別問題 分類問題 資料集 自google街景影象中的門牌號資料集 the street view house numbers dataset,svhn 並根據一定方式取樣得到比賽資料...