優化(optimization):深度學習的問題最後似乎總能變成優化問題,這個時候數值優化的方法就變得尤其重要。
從實踐方面來說,現在最為推崇的方法依舊是隨機梯度遞減,這樣乙個極其簡單的方法以其強悍的穩定性深受廣大研究者的喜愛,而不同的人還會結合動量(momentum)、偽牛頓方法(pseudo-newton)以及自動步長等各種技巧。此外,深度學習模型優化過程的並行化也是乙個非常熱的點,近年在分布式系統的會議上相關**也逐漸增多。
在理論方面,目前研究的比較清楚的還是凸優化(convex optimization),而對於非凸問題的理論還嚴重空缺,然而深度學習大多數有效的方法都是非凸的。現在有一些對深度學習常用模型及其目標函式的特性研究,期待能夠發現非凸問題中區域性最優解的相關規律。
泛化(generalization):乙個模型的泛化能力是指它在訓練資料集上的誤差是否能夠接近所有可能測試資料誤差的均值。泛化誤差
大致可以理解成測試資料集誤差和訓練資料集誤差之差。在深度學習領域變流行之前,如何控制泛化誤差一直是機器學習領域的主流問題。
從實踐方面來說,之前許多人擔心的深度神經網路泛化能力較差的問題,在現實使用中並沒有表現得很明顯。這一方面源於大資料時代樣本巨大的數量,另一方面近年出現了一些新的在實踐上比較有效的控制泛化誤差(regularization)的方法,比如dropout和dropconnect,以及非常有效的資料擴增(data agumentation)技術。是否還有其它實踐中會比較有效的泛化誤差控制方法一直是研究者們的好奇點,比如是否可以通過博弈法避免過擬合,以及是否可以利用無標記(unlabeled)樣本來輔助泛化誤差的控制。
表達(representation):這方面主要指的是深度學習模型和它要解決的問題之間的關係,比如給出乙個設計好的深度學習模型,它適合表達什麼樣的問題,以及給定乙個問題是否存在乙個可以進行表達的深度學習模型。
這方面的實踐主要是兩個主流,一方面那些篤信無監督學習(unsupervised learning)可行性的研究者們一直在尋找更好的無監督學習目標及其評價方法,以使得機器能夠自主進行表達學習變得可能。這實際上包括了受限波爾茲曼模型(restricted boltzmann machine),稀疏編碼(sparse coding)和自編碼器(auto-encoder)等。另一方面,面對實際問題的科學家們一直在憑藉直覺設計深度學習模型的結構來解決這些問題。這方面出現了許多成功的例子,比如用於視覺和語音識別的卷積神經網路(convolutional neural network),以及能夠進行自我演繹的深度回歸神經網路(recurrent neural network)和會自主玩遊戲的深度強化學習(reinforcement learning)模型。絕大多數的深度學習研究者都集中在這方面,而這些也恰恰能夠帶來最大的學術影響力。
然而,有關表達(representation)的理論,除了從認知心理學和神經科學借用的一些啟發之外,幾乎是空白。這主要是因為是否能夠存在表達的理論實際上依賴於具體的問題,而面對具體問題的時候目前唯一能做的事情就是去模擬現實存在的智慧型體(人類)是如何解決這一問題的,並設計模型來將它歸約為學習演算法。我直覺上認為,終極的表達理論就像是拉普拉斯幽靈(laplace's demon)一樣,如果存在它便無所不知,也因此它的存在會產生矛盾,使得這一理論實際上只能無限逼近。
機器學習研究方向
看了版上很多貼子,發現很多版友都在問 熱門研究方向 最新方法 等。有同學建議國內某教授的教材 或者cnki 或者某些sci期刊。每當看到這種問題,我都有點納悶,為什麼不去讀頂級會議上的 我無意否認以上文獻的價值,但是在機器學習 計算機視覺和人工智慧領域,頂級會議才是王道。國內教材和cnki上的基本是...
機器學習研究方向
看了版上很多貼子,發現很多版友都在問 熱門研究方向 最新方法 等。有同學建議國內某教授的教材 或者cnki 或者某些sci期刊。每當看到這種問題,我都有點納悶,為什麼不去讀頂級會議上的 我無意否認以上文獻的價值,但是在機器學習 計算機視覺和人工智慧領域,頂級會議才是王道。國內教材和cnki上的基本是...
深度學習理論與技術的重點研究方向
面向泛在 如移動計算 高風險 如精準醫療 高可靠性 如智慧型交通 等應用場景,突破深度學習理論基礎薄弱 模型結構單 一 資源消耗過高 資料依賴性強的瓶頸。研究下一代深度學習理論基礎 非神經網路 資源節約型深度學習模型 方法及高效優化技術 適於小樣本 無監督樣本 強化 博弈學習的深度學習方法與技術。深...