深度學習的理論基礎

2021-10-02 10:14:47 字數 880 閱讀 7181

在 1989 年提出通用近似定理以來,至少我們有了最基本的乙個理論基礎,即神經網路有潛力解決各種複雜的現實問題。

mit 教授 tomaso poggio 曾在他的系列研究中 [1] 表示深度學習理論研究可以分為三大類:

表徵問題(representation):為什麼深層網路比淺層網路的表達能力更好?最優化問題(optimization):為什麼梯度下降能找到很好的極小值解,好的極小值有什麼特點?泛化問題(generalization):為什麼過引數化仍然能擁有比較好的泛化性,不過擬合?對於表徵問題,我們想要知道深度神經網路這種「復合函式」,它的表達能力到底怎麼確定,它的復合機制又是什麼樣的。我們不再滿足於「能擬合任意函式」這樣的定性描述,我們希望知道是不是有一種方法能描述 50 層 resnet、12 層 transformer 的擬合能力,能不能清楚地了解它們的理論性質與過程。

有了表徵能力,那也只是具備了擬合潛力,深度學習還需要找到一組足夠好的極值點,這就是模型的最優解。不同神經網路的「最優化 landscape」是什麼樣的、怎樣才能找到這種高維複雜函式的優秀極值點、極值點的各種屬性都需要完善的理論支援。

最後就是泛化了,深度模型泛化到未知樣本的能力直接決定了它的價值。那麼深度模型的泛化邊界該怎樣確定、什麼樣的極值點又有更好的泛化效能,很多重要的特性都等我們確定一套理論基準。

3. 經過正則化後,gan 可以通過有限大小的生成器與判別器實現極小極大收斂率。作為分離 gan 與其它非參工具的首批理論結果,它可能可以幫助解釋為什麼 gan 在高維資料上能獲得這麼大的成功。

最後,不論是深度學習真正的理論基礎,還是從理論出發構建新方法、新模型,至少在 2019 年的 ai 頂會中,我們很高興能看到各種前沿研究都在拜託「啟發式」的新發現,反而更系統地關注它們的立足基礎。也許這些新發現,最終能帶領我們構建乙個系統的領域、乙個成熟的學科。

深度學習理論基礎1 Numpy

夜夢,語文老師勒令我寫一篇 深度學習入門 基於python的理論與實現 讀後感。我不敢懈怠,立即翻出我的膝上型電腦,開始寫作文。numpy 簡介 是乙個python第三方模組 處理陣列,矩陣,多維陣列十分便捷 底層用c語言實現,高效 numpy陣列的加減乘除運算 np arr np.array 1,...

深度學習理論基礎14 數值微分

先來看乙個導數的公式 其中h是趨近無限小的數。導數表示x方向的微小變化導致f x 的值在多大程度發生變化。如果用 幫助你的理解,這個 是這樣的 def numerical diff f,x h 10e 50 return f x h f x h 現在你大約了解了導數是怎麼回事 學渣才不知道的吧,喂!...

深度學習理論基礎11 輸出層的設計

首先,繼續上節的話題。softmax 函式。這只就是softmax函式了。其中a代表輸出層的輸入資料,ak代表第k個輸入。如果你覺得又難理解又難記,其實可以拆成3步來理解 1.把所有的輸入計算成序列 e a1 e a2 e a3 e an 用np的廣播功能一行就能搞定 2.計算得到上面的結果之和su...