深度學習面經

2021-08-08 11:25:47 字數 3632 閱讀 2190

cnn最成功的應用是在cv,那為什麼nlp和speech的很多問題也可以用cnn解出來?為什麼alphago裡也用了cnn?這幾個不相關的問題的相似性在**?cnn通過什麼手段抓住了這個共性?

deep learning -yann lecun, yoshua bengio & geoffrey hinton

learn tensorflow and deep learning, without a ph.d.

the unreasonable effectiveness of deep learning -lecun 16 nips keynote

以上幾個不相關問題的相關性在於,都存在區域性與整體的關係,由低層次的特徵經過組合,組成高層次的特徵,並且得到不同特徵之間的空間相關性。

cnn抓住此共性的手段主要有四個:區域性連線/權值共享/池化操作/多層次結構。

區域性連線使網路可以提取資料的區域性特徵;權值共享大大降低了網路的訓練難度,乙個filter只提取乙個特徵,在整個(或者語音/文字) 中進行卷積;池化操作與多層次結構一起,實現了資料的降維,將低層次的區域性特徵組合成為較高層次的特徵,從而對整個進行表示。如下圖:

上圖中,如果每乙個點的處理使用相同的filter,則為全卷積,如果使用不同的filter,則為local-conv。

為什麼很多做人臉的*****會最後加入乙個local connected conv?

deepface: closing the gap to human-level performance in face verification

以facebook deepface 為例:

deepface 先進行了兩次全卷積+一次池化,提取了低層次的邊緣/紋理等特徵。

後接了3個local-conv層,這裡是用local-conv的原因是,人臉在不同的區域存在不同的特徵(眼睛/鼻子/嘴的分布位置相對固定),當不存在全域性的區域性特徵分布時,local-conv更適合特徵的提取。

什麼樣的資料集不適合用深度學習?

資料集太小,資料樣本不足時,深度學習相對其它機器學習演算法,沒有明顯優勢。

資料集沒有區域性相關特性,目前深度學習表現比較好的領域主要是影象/語音/自然語言處理等領域,這些領域的乙個共性是區域性相關性。影象中畫素組成物體,語音頻號中音位組合成單詞,文字資料中單詞組合成句子,這些特徵元素的組合一旦被打亂,表示的含義同時也被改變。對於沒有這樣的區域性相關性的資料集,不適於使用深度學習演算法進行處理。舉個例子:**乙個人的健康狀況,相關的引數會有年齡、職業、收入、家庭狀況等各種元素,將這些元素打亂,並不會影響相關的結果。

對所有優化問題來說, 有沒有可能找到比現在已知演算法更好的演算法?

沒有免費的午餐定理:

對於訓練樣本(黑點),不同的演算法a/b在不同的測試樣本(白點)中有不同的表現,這表示:對於乙個學習演算法a,若它在某些問題上比學習演算法 b更好,則必然存在一些問題,在那裡b比a好。

也就是說:對於所有問題,無論學習演算法a多聰明,學習演算法 b多笨拙,它們的期望效能相同。

但是:沒有免費午餐定力假設所有問題出現機率相同,實際應用中,不同的場景,會有不同的問題分

布,所以,在優化演算法時,針對具體問題進行分析,是演算法優化的核心所在。

何為共線性, 跟過擬合有啥關聯?

multicollinearity-wikipedia

共線性:多變數線性回歸中,變數之間由於存在高度相關關係而使回歸估計不準確。

共線性會造成冗餘,導致過擬合。

解決方法:排除變數的相關性/加入權重正則。

說明如何用支援向量機實現深度學習(列出相關數學公式)

這個不太會,最近問一下老師。

廣義線性模型是怎被應用在深度學習中?

a statistical view of deep learning (i): recursive glms

深度學習從統計學角度,可以看做遞迴的廣義線性模型。

廣義線性模型相對於經典的線性模型(y=wx+b),核心在於引入了連線函式g(.),形式變為:y=g−1(wx+b)。

深度學習時遞迴的廣義線性模型,神經元的啟用函式,即為廣義線性模型的鏈結函式。邏輯回歸(廣義線性模型的一種)的logistic函式即為神經元啟用函式中的sigmoid函式,很多類似的方法在統計學和神經網路中的名稱不一樣,容易引起初學者(這裡主要指我)的困惑。下圖是乙個對照表:

什麼造成梯度消失問題? 推導一下

yes you should understand backdrop-andrej karpathy

how does the relu solve the vanishing gradient problem?

神經網路的訓練中,通過改變神經元的權重,使網路的輸出值盡可能逼近標籤以降低誤差值,訓練普遍使用bp演算法,核心思想是,計算出輸出與標籤間的損失函式值,然後計算其相對於每個神經元的梯度,進行權值的迭代。

梯度消失會造成權值更新緩慢,模型訓練難度增加。造成梯度消失的乙個原因是,許多啟用函式將輸出值擠壓在很小的區間內,在啟用函式兩端較大範圍的定義域內梯度為0。造成學習停止

weights initialization. 不同的方式,造成的後果。為什麼會造成這樣的結果。

幾種主要的權值初始化方法: lecun_uniform / glorot_normal / he_normal / batch_normal

lecun_uniform:efficient backprop

glorot_normal:understanding the difficulty of training deep feedforward neural networks

he_normal:delving deep into rectifiers: surpassing human-level performance on imagenet classification

batch_normal:batch normalization: accelerating deep network training by reducing internal covariate shift

為什麼網路夠深(neurons 足夠多)的時候,總是可以避開較差local optima?

the loss su***ces of multilayer networks

loss. 有哪些定義方式(基於什麼?), 有哪些優化方式,怎麼優化,各自的好處,以及解釋。

cross-entropy / mse / k-l散度

dropout。 怎麼做,有什麼用處,解釋。

how does the dropout method work in deep learning?

improving neural networks by preventing co-adaptation of feature detectors

an empirical analysis of dropout in piecewise linear networks

activation function. 選用什麼,有什麼好處,為什麼會有這樣的好處。

幾種主要的啟用函式:sigmond / relu /prelu

deep sparse rectifier neural networks

delving deep into rectifiers: surpassing human-level performance on imagenet classification

面經 葫蘆面經

1 給定乙個n位數,例如12345,從裡面去掉k個數字,得到乙個n k位的數,例如去掉2,4,得到135,去掉1,5,得到234。設計演算法,求出所有得到的 n k位數裡面最小的那乙個 2 找明星 n個人中,只有乙個明星 明星不認識其他所有的人,而其他人 都認識明星,這些人中也可能相互認識。你每次只...

NOKIA筆經 面經

今天應該是畢業找工作生涯的最後一次面試了,發個筆經面經,為後來人 鋪路.我面的是radio network planning。筆試 海選,通過chinahr出的一組能力測試題篩選。好像篩了不少人。題目包括詞語填空,閱讀理解,圖形,數字題,基本數學題,題。一面 面試官為應聘職位的部門經理。基本上為中文...

面經和菜經

tencent面經 面試前一天晚上要休息好,精神養好 提前準備充足,包括服裝,簡歷,了解好公司的相關資訊 找工作一定要定位好合適的工作,把握不大的不要過去浪費時間 面試的時候一定不能緊張,回答問題一定要有明晰的思路 炸丸子經 所有材料事先備好,一切準備妥當,規劃好攪拌的順序 用筷子夾麵糰的時候,要用...