首先這個題目一拿到就感覺是基本的目標檢測了,典型的ocr問題。所以自然想到目標檢測的一些模型,以及ocr問題種的一些模型解決方案。baseline是基於pytorch的,所幸這方面pytorch的資源也比較豐富,唯一需要解決的就是機器的問題。
統計json檔案中的資訊,發現label主要為數字0-9共十個數字,計數發現除了1出現比較多以外,其他數字的數量比較平均不存在不平衡的現象。
觀察發現字型變化不大,大多都比較扭曲但都有類似的存在。
框的長寬比範圍比較廣,從0.5到29,尺度大小也比較大,從幾個畫素到300+畫素,因此需要考慮到不同尺度的問題。
而且大小不一致也需要進行處理。因此要考慮不同感受尺度的結果。
由於自己機器訓練不了,所以第一步使用學校的超算,看能否進行一些計算。
嘗試一些2stage的方法,加入一些改進和其他比賽方案的經驗。感覺這個資料有很多比較困難的樣例。所以可以考慮將一些**準確的加入訓練集,進一步增強,雖然可能沒啥效果哈。
Datawhale 零基礎入門CV
賽題名稱 零基礎入門cv之街道字元識別 1.匯入所需庫 import os,sys,glob,shutil,json os.environ cuda visible devices 0 import cv2 import matplotlib.pyplot as plt from pil impor...
Datawhale 零基礎入門CV賽事
本章將會講解卷積神經網路 convolutional neural network,cnn 的常見層,並從頭搭建乙個字元識別模型。學習cnn基礎和原理 使用pytorch框架構建cnn模型,並完成訓練 卷積神經網路 簡稱cnn 是一類特殊的人工神經網路,是深度學習中重要的乙個分支。cnn在很多領域都...
Datawhale 零基礎入門CV賽事
在機器學習模型 特別是深度學習模型 的訓練過程中,模型是非常容易過擬合的。深度學習模型在不斷的訓練過程中訓練誤差會逐漸降低,但測試誤差的走勢則不一定。在模型的訓練過程中,模型只能利用訓練資料來進行訓練,模型並不能接觸到測試集上的樣本。因此模型如果將訓練集學的過好,模型就會記住訓練樣本的細節,導致模型...