深度學習原理分析之資料不足與過擬合

2021-09-11 22:35:31 字數 821 閱讀 6074

人們常常知道若干種解決過擬合的方法但不知其因,本文對其進行原理剖析。

乙個模型所能提供的資訊一般**於兩個方面,一是訓練資料中蘊含的資訊; 二是在模型的形成過程中(包括構造、 學習、 推理等),人們提供的先驗資訊。

當訓練資料不足時, 說明模型從原始資料中獲取的資訊比較少, 這種情況下要想保證模型的效果, 就需要更多先驗資訊。

先驗資訊的作用方式分為兩種:

先驗資訊可以作用在模型上, 例如讓模型採用特定的內在結構、 條件假設或新增其他一些約束條件;

先驗資訊也可以直接施加在資料集上, 即根據特定的先驗假設去調整、 變換或擴充套件訓練資料, 讓其展現出更多的、 更有用的資訊, 以利於後續模型的訓練和學習。

此處深有感悟,目前深度學習面臨的一大難點就是資料匱乏。在大多數實際應用中,我們缺少充足的資料**。那麼就會採用上述兩種形式。其中,遷移學習則採用第一種,讓其他近似的資料所學到的模型作為先驗進行微調。除此之外,第一種還有很多著名的*****,如2017cvpr的gabor人工調製神經網路(在我隔壁實驗室的大牛,仰望~)等技術,以及作者本人所提到的投影/gabor雙重調製技術。待文章發表後再詳細敘述。這種人工調製技術有著很大的實際應用價值與發展前景,是個發*****的好思路。除此之外還有很多常用的簡化模型(如將

非線性模型簡化為線性模型) 、 新增約束項以縮小假設空間(如l1/l2正則項) 、 整合學習、 dropout超引數等

第二種方法便是常見的資料增強,除此之外,使用生成模型也可以合成一些新樣本, 例如當今非常流行的生成式對抗網路模型,這一點也是個很好的***** idea。

深度學習之嵌入方法與原理

嵌入方法是指通過數學變換 機器學習演算法 將高維空間的物件對映到低維空間並保持相關性質的一種方法。除了方便人類理解外,通過嵌入我們至少可以獲得如下價值 1.嵌入到低維空間再處理,可以減少資料儲存與計算成本 高維空間有維數災難 2.嵌入到低維空間,雖有部分資訊損耗,但是這樣反而可能提公升模型的泛化能力...

深度學習原理15 欠擬合和過擬合

欠擬合 就是神經網路還沒有學習好資料,不能很好識別。過擬合 就是對訓練資料擬合的太好了,幾乎完全擬合了,再給個稍微不一樣的就不認識了。1 擴大網路規模,如新增隱藏層或者神經元數量 2 尋找合適的網路架構,使用更大的網路結構,如alexnet 3 訓練時間更長一些 4 減小正則化係數。1 獲取更多的資...

深度學習揭秘之防止過擬合(overfitting)

神經網路通過大量的引數模擬各種繁多的任務,並能擬合各種複雜的資料集。這種獨特的能力使其能夠在許多難以在 傳統 機器學習時代取得進展的領域 例如影象識別 物體檢測或自然語言處理等領域表現優異。然而,有時候,最大的優點也是潛在的弱點。模型在學習過程時,如果缺乏控制可能會導致過擬合 overfitting...