閱讀筆記 新智元 深度學習為什麼深? 周志華

2021-08-18 21:50:06 字數 4181 閱讀 3933

原文:

在4月15日舉行的2018京東人工智慧創新峰會上,①京東集團副總裁、ai平台與研究部負責人周伯文揭開了京東技術布局下的ai 戰略全景圖,概括起來說就是「三大主體、七大應用場景和五個人工智慧產業化的布局方向」,即:以 ai 開放平台、ai 基礎研究、ai 商業創新三個主體,通過產學研相結合,高階人才培養,以及核心人才引進打造科技能力,將 ai 用於金融科技、智慧型物流、智慧型消費、智慧型**、對外賦能;②南京大學計算機系主任、人工智慧學院院長周志華教授進行了題為《關於深度學習的思考》的主題演講。周志華教授提出,人工智慧時代最缺的就是人才,因為對這個行業來說,你有多好的人才,才可能有多好的人工智慧。

周志華教授《關於深度學習的思考》的主題演講從深度學習的理論基礎說起,從模型複雜度的角度**了「深度神經網路為什麼深」的問題,提出深度學習在有很多成功應用的同時,也存在調參困難、可重複性差等問題,在很多任務上並不是最好的選擇。因此,探索深度神經網路之外的模型是很重要的挑戰。

以下是周志華教授的演講內容(摘要):

深度學習的理論基礎尚不清楚。

我想大多數人的答案,就是深度學習差不多就等於深度神經網路。著名學會siam(國際工業與應用數學學會)的旗艦報紙siam news說深度學習是機器學習中使用深度神經網路的的子領域(所以如果我們要談深度學習的話,是繞不開深度神經網路的)

首先我們必須從神經網路說起。神經網路其實並不是乙個新生事物,在人工智慧領域已經研究了超過半個世紀。一般我們會用中間有乙個隱層,或者有兩個隱層的神經網路,其中,每乙個單元是個非常簡單的計算模型,由此組成乙個系統。

今天的深度神經網路,簡單來說,是指用很多層的神經網路。在 2012 年深度學習剛剛開始受到大家重視的時候,那時候 imagenet競賽的冠軍是用了8層的神經網路,2023年是152層,2023年是 1207層。這是個非常龐大非常巨大的系統,把這麼乙個系統訓練出來,難度是非常大的。神經網路裡面的計算單元,最重要的啟用函式是連續的、可微的,如sigmoid函式、relu函式或者它的變體。這使得我們可以容易地進行梯度計算,利用著名的bp演算法來訓練神經網路。

到今天為止,學術界都還沒有統一的看法。有很多的論述。周志華教授的以下論述主要從模型的複雜度的角度來討論。

對於乙個機器學習模型:①複雜度實際上和它的容量有關,而容量又跟它的學習能力有關。②如果我們能夠增強乙個學習模型的複雜度,那麼它的學習能力能夠提公升。

對於神經網路有兩條很明顯的途徑提高複雜度:①模型變深,②模型變寬,顯然變深會更有效。當變寬的時候,只不過是增加了一些計算單元,增加了函式的個數,在變深的時候不僅增加了個數,還增加了函式間的嵌入的程度。所以從這個角度來說,我們應該嘗試去把它變深。

那大家可能就會問了,那既然要變深,那你們早就不知道這件事了嗎?那麼現在才開始做?這就涉及到另外乙個問題,我們把機器學習的學習能力變強了,這其實未必是一件好事。因為機器學習一直在鬥爭的乙個問題,就是經常會碰到過擬合(overfit)。所以我們以往通常不太願意用太複雜的模型。

那現在我們為什麼可以用這樣的模型?有很多因素,第一我們有了更大的資料;第二我們有強力的計算裝置;第三我們有很多有效的訓練技巧。這使我們可以用高複雜度的模型,而深度神經網路恰恰就是一種很便於實現的高複雜度模型。

為什麼扁平的(flat),或者寬的網路做不到深度神經網路的效能?實際上我們把網路變寬,它同樣也能起到增加複雜度的能力。從複雜度的角度可能很難回答這個問題,我們需要一點更深入的思考。

深度學習使研究人員不再需要手工去設計特徵,模型可以學習到資料特徵並進行特徵表示。這和以往的機器學習技術相比可以說是乙個很大的進步。

深度神經網路最重要的是表示學習的能力。

表示學習最關鍵的又是什麼呢?就是逐層的處理。最底層是一些畫素,一層一層往上會慢慢的學習到邊緣、輪廓,甚至物件的部件等,不斷在對物件進行抽象。從這個角度可以解釋深度學習為什麼成功的關鍵因素,因為扁平神經網路沒有辦法進行逐層深度的加工。

「逐層地處理」在機器學習裡面也不是新東西。如決策樹和boosting。它們為什麼做不到深度神經網路這麼好的原因在於:①它的複雜度不夠;第二,學習過程中沒有進行特徵的變換。

所以現在我們的看法是,深度神經網路成功的關鍵原因:第一是逐層地處理,第二是內部的特徵變換。

綜合起來,深度學習成功的三個因素:第一,逐層處理;第二,特徵的內部變換;第三,足夠的模型複雜度。

深度模型的常見問題:①容易overfit,所以我們要用大資料;②難訓練,我們要有很多訓練的trick;③系統的計算開銷非常大,所以我們要有非常強有力的計算的裝置,比如 gpu 等等。

那如果滿足這三個關鍵因素,我們馬上就可以想到不一定要用深度神經網路,用別的模型做也可以,只要能夠同時滿足這三個條件即可。

第一,深度神經網路要花大量的精力來調參。調引數的經驗很難共享。

第二,深度學習的可重複性是最弱的。

第三,深度神經網路的模型複雜度必須是事先指定的。實際上大家做的通常都是設更大的複雜度。

因此過去 3、4 年深度學習這個領域很多最前沿的工作在做的都是在有效的縮減網路的複雜度。如restnet通過加了shortcuts有效地使得複雜度變小、模型壓縮、權重的二值化等。實際上它是先用了乙個過大的複雜度,然後我們再把它降下來。那麼我們有沒有可能在一開始就讓這個模型的複雜度隨著資料而變化,這點對神經網路可能很困難,但是對別的模型是有可能的。

還有很多別的問題,比如說理論分析很困難,需要非常大的資料,黑箱模型等等。那麼從另外乙個方面,有人可能說你是做學術研究,你們要考慮這些事,我是做應用的,什麼模型我都不管,你只要能給我解決問題就好了。其實就算從這個角度來想,我們研究神經網路之外的模型也是很需要的。

我們從學術的觀點來總結一下,今天我們談到的深度模型基本上都是深度神經網路。如果用術語來說的話,它是多層、可引數化的、可微分的非線性模組所組成的模型,而這個模型可以用 bp演算法來訓練。

那麼這裡面有兩個問題。第一,我們現實世界遇到的各種各樣的問題的性質,並不是絕對都是可微的,或者用可微的模型能夠做最佳建模的。第二,過去幾十年裡面,我們的機器學習界做了很多很多模型出來,這些都可以作為我們構建乙個系統的基石,而中間有相當一部分模組是不可微的。那麼這樣的東西能不能用來構建深度模型?能不能通過構建深度模型之後得到更好的效能,能不能通過把它們變深之後,使得深度模型在今天還比不上隨機森林等等這些模型的任務上,能夠得到更好的結果呢?現在有這麼乙個很大的挑戰,這不光是學術上的,也是技術上的乙個挑戰,就是我們能不能用不可微的模組來構建深度模型?

這個問題一旦得到了回答,我們同時就可以得到很多其他問題的答案。比如說深度模型是不是就是深度神經網路?我們能不能用不可微的模型把它做深,這個時候我們不能用bp演算法來訓練,那麼同時我們能不能讓深度模型在更多的任務上獲勝?我們提出這個問題之後,在國際上也有一些學者提出了一些相似的看法。可能大家都知道,深度學習非常著名的領軍人物geoffery hinton教授,他也提出來說,希望深度學習以後能擺脫 bp 演算法來做,他提出這件事比我們要晚一些。

我想這樣的問題是應該是站在乙個很前沿的角度上探索。剛才跟大家分析所得到的三個結論,第一我們要做逐層處理,第二我們要做特徵的內部變換,第三,我們希望得到乙個充分的模型複雜度。我自己領導的研究組最近在這方面做了一些工作。

deep forest(深度森林)。這個方法是乙個基於樹模型的方法,它主要是借用了整合學習裡面的很多的想法。第二,在很多不同的任務上,它的模型得到的結果可以說和深度神經網路是高度接近的。除了一些大規模的影象任務,這基本上是深度神經網路的殺手鐗應用,它在很多的其它任務上,特別是跨任務的表現非常好。我們可以用同樣一套引數,用不同的任務,效能都還不錯,就不再需要逐任務的慢慢去調引數,同時它要調的超引數少很多,容易調的多。還有乙個很重要的特性,它有自適應的模型複雜度,可以根據資料的大小,自動的來判定模型該長到什麼程度。

另外一方面,我們要看到,這實際上是在深度學習這個學科領域發展思路上乙個全新的探索。所以今天雖然它已經能夠解決一部分問題了,但是我們應該可以看到它再往下發展下去,它的前景可能是今天我們還不太能夠完全預見到的。

深度學習文獻閱讀筆記(2)

12 深度學習的昨天 今天和明天 中文,期刊,2013年,知網 記錄了hinton提出的兩個重要觀點 一是多隱層神經網路具有優異的特徵學習能力,而是深度網路在訓練上的難度可通過 逐層初始化 有效克服。詳細描述了及機器學習的兩次浪潮 淺層學習和深度學習,並指出深度學習研發面臨的重大問題,屬於一篇技術總...

深度學習文獻閱讀筆記(6)

51 基於深度pca的人臉識別 face recognition using deep pca 英文,會議 2013年,ei檢索 這篇文章是典型的pcanet的前身,只不過相對於pcanet顯得更為簡化。基本思想是做了雙層的pca對映,並且在對映過程中進行了zca白化。其訓練集的分類方法和對比實驗思...

深度學習文獻閱讀筆記(6)

51 基於深度pca的人臉識別 face recognition using deep pca 英文,會議 2013年。ei檢索 這篇文章是典型的pcanet的前身,僅僅只是相對於pcanet顯得更為簡化。基本思想是做了雙層的pca對映,並且在對映過程中進行了zca白化。其訓練集的分類方法和對照實驗...