天池&datawhale- 街景字元編碼識別
task1 賽題理解
需要選手**真實場景下的字元識別,這是乙個典型的字元識別問題**(分類問題)**
資料集**自google街景影象中的門牌號資料集(the street view house numbers dataset, svhn),並根據一定方式取樣得到比賽資料集。
訓練集資料報括3w張**,驗證集資料報括1w張**,每張**包括彩色影象、對應的編碼類別和具體位置。
訓練集資料夾(3w張,png格式),驗證集資料夾(1w),測試集(4w張,png格式)
訓練集,驗證集標註檔案每一字段說明
field
description
top左上角座標x
height
字元高度
left
左上角座標x
width
字元寬度
label
字元編碼
準確率score= 編碼識
別正確的
數量測試
圖片數量
\frac
測試**數量
編碼識別
正確的數
量baseline提供了三種解題思路
1.將不定長字元識別轉化為定長字元識別
根據對資料集的觀察,中最多的字元個數為6個,所以將所有影象都抽象為6個字元的識別問題,中不滿6個的部分填充字元x,問題轉化為分別對6個字元進行分類
疑問:如何將中的含有字元的區域整塊提取,同時怎麼填充x,不是很理解
2.不定長字元識別
有特定方法解決不定長字元識別,比如crnn,將影象資料視為乙個單詞或者乙個句子。
3.先檢測數字再識別
字元檢測模型檢測字元,把字元框出來
再進行多分類(這也恰是我想到的方法,可能也是大多數的人想到的方法?)
可以考慮物體檢測模型ssd或者yolo
目前為止還是深度學習上的小白,只了解了cnn,同時還沒有任何**上的實踐。接下來需要學習pytorch框架的使用,更多的深度神經網路模型(crnn,yolo)
DataWhale 街景字元編碼識別比賽記錄
作為正式參加的第乙個cv比賽,打算通過這個來入個門。因為前兩天因為私事沒來得及跑這個比賽。看小組的討論,打算先試試已有成功方案,跑通模型,先有個baseline然後逐步優化。下面的內容都是來自比賽的官網。賽題 自google街景影象中的門牌號資料集 the street view house num...
天池 街景字元編碼識別 模型整合
結果後處理 在機器學習中的整合學習可以在一定程度上提高 精度,常見的整合學習方法有stacking bagging和boosting,同時這些整合學習方法與具體驗證集劃分聯絡緊密。由於深度學習模型一般需要較長的訓練週期,如果硬體裝置不允許建議選取留出法,如果需要追求精度可以使用交叉驗證的方法。那麼在...
天池 街景字元編碼識別 賽題理解
評測指標 結果提交 賽題思路分析 資料集介紹 賽題資料 自google街景影象中的門牌號資料集 the street view house numbers dataset,svhn 並根據一定方式取樣得到比賽資料集。訓練集資料報括3w張 驗證集資料報括1w張 每張 包括顏色影象和對應的編碼類別和具體...