街景字元編碼識別賽題理解

2021-10-06 08:37:59 字數 488 閱讀 3703

賽題的資料為街景字元,類似於mnist資料集,但是更加困難,每張解析度都很低,中的字元有大有小,存在尺度不一致的問題;按照賽題的要求只要識別是每張包含幾個字元,每個字元是什麼就可以了,這樣可以簡單將其定義為乙個影象分類問題,但是每個的字元個數不確定,而且位置不確定,因為每個字元的類別僅僅與相應的區域性的特徵有關,僅僅通過對全域性的特徵進行分類並不能得到很好的效果;並且通過親自實驗, 完成baseline**的閱讀和理解,並完成在訓練集訓練10個epoch, 效果很差

其次賽題資料不僅提供了字元類別也提供了每個字元的位置資訊,所以也可以將改題定義為目標檢測問題,利用同時分類和回歸的多工損失,對每個指定位置進行針對性的分類和回歸,兩種任務進行相互促進,彼此收益可以取得更好的效果.

如果採用目標檢測的思路,個人認為應該選取針對小目標的backbone作為特徵提取器,要包含多尺度的特徵融合的策略,檢測頭的話可以採用當前精度比較好的anchor free方法這樣可以避免複雜的關於anchor超參的設計,同時可以支援多尺度的邊界框回歸

天池 街景字元編碼識別 賽題理解

評測指標 結果提交 賽題思路分析 資料集介紹 賽題資料 自google街景影象中的門牌號資料集 the street view house numbers dataset,svhn 並根據一定方式取樣得到比賽資料集。訓練集資料報括3w張 驗證集資料報括1w張 每張 包括顏色影象和對應的編碼類別和具體...

DW街景字元編碼識別 賽題理解

此次專案為datawhale和阿里天池合作舉辦的cv入門賽事街道字元識別,採用深度學習模型。該任務較早見於花書的作者古德費洛在12 13年在谷歌做出的研究。當時谷歌需要對極大的街景門牌號資料集進行數字提取以使每乙個地點能在谷歌地圖上有正確的門牌號資訊。這樣乙個轉碼專案必然要消耗極大的人力物力,因此當...

街景字元編碼識別1

該資料來自真實場景的門牌號。訓練集資料報括 3w 張 驗證集資料報括 1w 張 每張 包括顏色影象和對應的編碼類別和具體位置 為了保證比賽的公平性,測試集a包括 4w 張 測試集b包括 4w 張 相關資料 所有的資料使用 訓練集和驗證集 json格式進行標註,如果乙個檔案中包含多個字元,則使用列表將...