天池街景字元識別個人看法

2021-10-06 08:50:29 字數 919 閱讀 3871

個人對賽題的理解,以及對實現的思路的一些看法,小白看法,也不知道對不對

對賽題的理解

由於以前個人對cnn有一點基礎,我覺得本次賽題即街景字元編碼識別可以用cnn來實現,convolutional是對影象特徵提取比較好的方式。傳統方式沒有運用卷積操作,直接把個個類別的影象對應的畫素直接flatten建立神經網路,最後利用softmax對應成各個類別對應的概率,從而最後得出分類的結果。convolution 的出現極大地縮減了影象提取的特徵,特別是對於比較大的影象,要是像傳統網路一樣,那麼對應的特徵向量會是個很長的向量,而網路之間的鏈結權重數量也會是個天文數字,對於計算機的運算力提出了很高的要求。然而有了convolutional操作後,加上池化操作,極大地縮減了提取的特徵向量的維度,從而降低了計算機算力的要求。

實現思路

由於個人以前用的tensorflow2.0以上的版本做過類似的卷積神經網路的構建實驗,而賽題要求用pytorch,個人對pytorch還不熟,希望通過這個比賽對pytorch框架有個初步了解。以下是我的一些大體思路:

根據資料集的大小,設定合適的輸入影象如(150x150)以及卷積核(3x3)

對原圖進行第一次卷積,然後relu得到(148x148)影象,然後池化(2x2)得到(74x74)影象,之後再進行第二次卷積,然後relu得到(72x72)影象,然後再池化(2x2)得到(36x36),以此類推。。。。

最後對所得的特徵影象進行flatten,然後送入softmax函式,將次對映成各個字元類別對應的概率,概率最大的就是對應的分類結果。

網路的訓練過程則是利用backpropagation和gradient descent演算法不斷修正特徵提取中的卷積核引數以及對應的bias值。

通過大量的訓練,最後得到最優的卷積核引數,這些引數則能夠提取各類別影象中對應的特徵,由此達到識別的目的。

阿里天池新人賽 之街景字元識別(1)

正式賽時間 2020.5.14 2020.6.24 比賽 所有的資料 訓練集 驗證集和測試集 的標註使用json格式,並使用檔名進行索引。如果乙個檔案中包括多個字元,則使用列表將字段進行組合。賽題思路分析 賽題本質是分類問題,需要對的字元進行識別。但賽題給定的資料中不同中包含的字元數量不等,如下圖所...

天池 街景字元識別 Task5 模型整合

結果後處理 小節在機器學習中的整合學習可以在一定程度上提高 精度,常見的整合學習方法有stacking bagging和boosting,同時這些整合學習方法與具體驗證集劃分聯絡緊密。由於深度學習模型一般需要較長的訓練週期,如果硬體裝置不允許建議選取留出法,如果需要追求精度可以使用交叉驗證的方法。下...

街景字元識別 模型整合

3.後處理 整合學習方法可以提高 精度,常見的有stacking bagging和boosting。一般利用交叉驗證法提高精度,如下所示。使用10折交叉驗證法,得到10個cnn模型,可通過以下方法進行整合。平均 結果的概率值,然後解碼為具體字元。對 的字元進行投票,得到最終字元。dropout在訓練...