DW街景字元編碼識別 賽題理解

2021-10-06 08:48:21 字數 865 閱讀 2775

此次專案為datawhale和阿里天池合作舉辦的cv入門賽事街道字元識別,採用深度學習模型。

該任務較早見於花書的作者古德費洛在12-13年在谷歌做出的研究。當時谷歌需要對極大的街景門牌號資料集進行數字提取以使每乙個地點能在谷歌地圖上有正確的門牌號資訊。這樣乙個轉碼專案必然要消耗極大的人力物力,因此當時採用深度學習模型來實現自動轉碼,並最終取得了98%的覆蓋率,大幅提高效率。

本菜雞對於深度學習以及cv一竅不通,所以先從了解啥是深度學習以及計算機視覺開始,參考了六一等大佬們的學習路線,找到了如下資料:

本次專案採用谷歌公開資料集「街景房屋號碼(svhn)」,其中測試集資料為3萬張,驗證集資料為1萬張;測試集a包括4w張**,測試集b包括4w張**。

為了降低比賽的難度,對於每一張,都有對應的編碼標籤和具體的字元框的位置以用於模型的訓練,具體的資料格式說明如下表所示:

field

description

top字元框左上角的座標x

height

字元高度

left

字元框左上角的座標y

width

字元框的寬度

label

字元編碼

專案的評測指標以字串整體的識別正確率作為標準,其中任何乙個字元的錯誤都算整體錯誤。score表示如下:

s co

re=總

圖片數量

編碼字元

串識別正

確的圖片

數量

score= \frac

score=

編碼字元

串識別正

確的**

數量總圖

片數量​

(使用latex在csdn中插入公式)

街景字元編碼識別賽題理解

賽題的資料為街景字元,類似於mnist資料集,但是更加困難,每張解析度都很低,中的字元有大有小,存在尺度不一致的問題 按照賽題的要求只要識別是每張包含幾個字元,每個字元是什麼就可以了,這樣可以簡單將其定義為乙個影象分類問題,但是每個的字元個數不確定,而且位置不確定,因為每個字元的類別僅僅與相應的區域...

天池 街景字元編碼識別 賽題理解

評測指標 結果提交 賽題思路分析 資料集介紹 賽題資料 自google街景影象中的門牌號資料集 the street view house numbers dataset,svhn 並根據一定方式取樣得到比賽資料集。訓練集資料報括3w張 驗證集資料報括1w張 每張 包括顏色影象和對應的編碼類別和具體...

街景字元編碼識別1

該資料來自真實場景的門牌號。訓練集資料報括 3w 張 驗證集資料報括 1w 張 每張 包括顏色影象和對應的編碼類別和具體位置 為了保證比賽的公平性,測試集a包括 4w 張 測試集b包括 4w 張 相關資料 所有的資料使用 訓練集和驗證集 json格式進行標註,如果乙個檔案中包含多個字元,則使用列表將...