街景字元編碼識別 Task05 模型整合

2021-10-06 18:14:26 字數 1596 閱讀 3472

學習目標

模型整合

整合學習(ensemble learning)通過構建並結合多個弱學習器來綜合得到乙個強學習器的方法。機器學習領域的整合方法有bagging、boosting、stacking。

bagging(bootstrap aggregating,裝袋)

bagging使用裝袋取樣來獲取資料子集訓練基礎學習器。通常分類任務使用投票的方式整合,而回歸任務通過平均的方式整合。

1.從原始樣本集中抽取訓練集。每輪從原始樣本集中使用有放的方法抽取n個訓練樣本。共進行k輪抽取,得到k個訓練集

2.每次使用乙個訓練集得到乙個模型,k個訓練集共得到k個模型。

3.對分類問題:將上步得到的k個模型採用投票的方式得到分類結果;對回歸問題,計算上述模型的均值作為最後的結果。

隨機森林是一種常用的bagging整合模型演算法。

boosting(提公升演算法)

boosting是一族可將弱學習器提公升為強學習器的演算法,這類演算法的步驟為:

1.先從初始訓練集訓練出乙個基學習器;

3.基於調整後的樣本分佈來訓練下乙個基學習器;

4.重複進行上述步驟,直至基學習器數目達到事先指定的值t,最終將這t個基學習器進行加權結合。

常見的boosting演算法有adaboost,gbdt等。

stacking

stacking是通過乙個元分類器或者元回歸器來整合多個分類模型或回歸模型的整合學習技術。基礎模型利用整個訓練集做訓練,元模型將基礎模型的特徵作為特徵進行訓練。

dropout:在2023年的文章中《improving neural networks by preventing co-adaptation of feature detectors》提出了在每次訓練的時候,讓一半的特徵檢測器停過工作,這樣可以提高網路的泛化能力,hinton又把它稱之為dropout。具體的,在一次迴圈中,先隨機選擇神經層中的一些單元並將其臨時隱藏,然後再進行該次迴圈中神經網路的訓練和優化過程。在下一次迴圈中,又將隱藏另外一些神經元,如此直至訓練結束。dtopout可以提高網路模型的泛化效能。

測試時增強(test time augmentation, tta),是在測試階段時,將輸入的測試資料進行,翻轉、旋轉操作等資料增強,並最後對同一樣本的不同資料增強的結果根據任務需求進行例如平均,求和等資料處理。

快照整合(snapshot ensembling),使用cos方式的學習率不斷迴圈下降,上公升的策略,可以使得模型收斂到多個全域性最小值。從而可以使用這些模型進行整合學習。使用傳統學習率訓練的單個模型,模型精度可能會比使用cos方式訓練的每個模型的精度都略高。但是cos方式的模型進行整合後,效果會優於傳統方式訓練的單個模型。

整合方法與深度學習相結合時,可以通過組合多個神經網路的**來產生最終的**結果。通常,整合不同結構的神經網路會得到乙個效能不錯的整合模型,因為每種模型可能在不同的訓練樣本上犯錯,因此這樣的整合方法能夠最大化地提公升模型的最終效能。

[1][2]

[3]tt]

[4][5]

街景字元編碼識別 Task5 模型整合

在機器學習中的整合學習可以在一定程度上提高 精度,常見的整合學習方法有stacking bagging和boosting,同時這些整合學習方法與具體驗證集劃分聯絡緊密。由於深度學習模型一般需要較長的訓練週期,如果硬體裝置不允許建議選取留出法,如果需要追求精度可以使用交叉驗證的方法。下面假設構建了10...

街景字元編碼識別(task6)模型整合

在機器學習中的整合學習可以在一定程度上提高 精度,常見的整合學習方法有stacking bagging和boosting,同時這些整合學習方法與具體驗證集劃分聯絡緊密。由於深度學習模型一般需要較長的訓練週期,如果硬體條件不允許建議選取留出法,如果需要追求精度可以使用交叉驗證的方法。10折交叉驗證,訓...

街景字元編碼識別1

該資料來自真實場景的門牌號。訓練集資料報括 3w 張 驗證集資料報括 1w 張 每張 包括顏色影象和對應的編碼類別和具體位置 為了保證比賽的公平性,測試集a包括 4w 張 測試集b包括 4w 張 相關資料 所有的資料使用 訓練集和驗證集 json格式進行標註,如果乙個檔案中包含多個字元,則使用列表將...