街景字元編碼識別賽題理解

賽題的資料為街景字元，類似於mnist資料集，但是更加困難，每張解析度都很低，中的字元有大有小，存在尺度不一致的問題；按照賽題的要求只要識別是每張包含幾個字元，每個字元是什麼就可以了，這樣可以簡單將其定義為乙個影象分類問題，但是每個的字元個數不確定，而且位置不確定，因為每個字元的類別僅僅與相應的區域性的特徵有關，僅僅通過對全域性的特徵進行分類並不能得到很好的效果；並且通過親自實驗, 完成baseline**的閱讀和理解,並完成在訓練集訓練10個epoch, 效果很差

其次賽題資料不僅提供了字元類別也提供了每個字元的位置資訊，所以也可以將改題定義為目標檢測問題，利用同時分類和回歸的多工損失，對每個指定位置進行針對性的分類和回歸，兩種任務進行相互促進，彼此收益可以取得更好的效果．

如果採用目標檢測的思路，個人認為應該選取針對小目標的backbone作為特徵提取器，要包含多尺度的特徵融合的策略，檢測頭的話可以採用當前精度比較好的anchor free方法這樣可以避免複雜的關於anchor超參的設計，同時可以支援多尺度的邊界框回歸