作者 | tomer amit
譯者 | 彎月,編輯 | 屠敏
在本文中,我將分享有關深度學習的25個問題,希望能夠幫助你為面試做好準備。
1.為什麼必須在神經網路中引入非線性?
答:否則,我們將獲得乙個由多個線性函式組成的線性函式,那麼就成了線性模型。線性模型的引數數量非常少,因此建模的複雜性也會非常有限。
2.說明解決神經網路中梯度消失問題的兩種方法。
答:3.在影象分類任務中,相較於使用密集神經網路(dense neural network,dnn),使用卷積神經網路(convolutional neural network,cnn)有哪些優勢?
答:雖然兩種模型都可以捕獲彼此靠近的畫素之間的關係,但cnn具有以下屬性:
4. 說明在影象分類任務中視覺化cnn特徵的兩種方法。
答:5. 在優化學習速率時,分別嘗試學習速率:0.1、0.2,…,0.5是好辦法嗎?
答:這種方法並不好,建議使用對數比例來優化學習速率。
6. 假設乙個神經網路擁有3層的結構和relu啟用函式。如果我們用同乙個值初始化所有權重,結果會怎樣?如果我們只有1層(即線性/邏輯回歸)會怎樣?
答:如果所有權重的初始值都相同,則無法破壞對稱性。也就是說,所有梯度都會更新成同乙個值,而且神經網路將無法學習。但是,如果神經網路只有1層的話,成本函式是凸形的(線性/ s型),因此權重始終會收斂到最佳點,無論初始值是什麼(收斂可能會較慢)。
7.解釋adam優化器的概念。
答:adam結合了兩個想法來改善收斂性:每個引數更新可加快收斂速度;動量可避免卡在鞍點上。
8.比較批處理,小批處理和隨機梯度下降。
答:批處理是指在估計資料時獲取整個資料;小批處理是通過對幾個資料點進行取樣來進行小批量處理;而隨機梯度下降是指在每個時期更新乙個資料點的梯度。我們需要權衡梯度計算的準確度與儲存在記憶體中的批量大小。此外,通過在每個epoch新增隨機雜訊,我們可以通過小批處理(而非整個批處理)實現正規化效果。
9.什麼是資料擴充?舉個例子。
答:資料擴充是一種技術,通過操作原始資料來增加輸入資料。例如,對於影象,我們可以執行以下操作:旋轉影象、翻轉影象、新增高斯模糊等。
10. 解釋gan的概念。
答:gan(generative adversarial network)即生成對抗網路,通常由兩個神經網路d和g組成,其中d指的是判別器(discriminator),而g指生成網路(generative network)。這種模型的目標是建立資料,例如建立與真實影象並無二樣的影象。假設我們想要建立乙隻貓的對抗示例。神經網路g負責生成影象,而神經網路d則負責判斷影象是否是貓。g的目標是「愚弄」d——將g的輸出始終分類為貓。
11.使用batchnorm有什麼優勢?
答:batchnorm能夠加快訓練過程,而且(一些噪音的副產品)還具有調節作用。
12.什麼是多工學習?應該在什麼時候使用?
答:當我們使用少量資料處理多個任務時,多工處理將很有用,而且我們還可以使用在其他任務的大型資料集上訓練好的模型。通過「硬」方式(即相同的引數)或「軟」方式(即對成本函式進行正則化/懲罰)共享模型的引數。
13.什麼是端到端學習?列舉一些優點。
答:端到端學習通常是乙個模型,該模型能夠獲取原始資料並直接輸出所需的結果,而無需任何中間任務或功能工程。其優點包括:無需手工構建功能,而且通常可以降低偏差。
14.如果在最後一層中,我們先使用relu啟用函式,然後再使用sigmoid函式,會怎樣?
答:由於relu始終會輸出非負結果,因此該神經網路會將所有輸入**成同乙個類別。
15.如何解決梯度**的問題?
答:解決梯度**問題的乙個最簡單的方法就是梯度修剪,即當梯度的絕對值大於m(m是乙個很大的數字)時,設梯度為±m。
16.使用批量梯度下降法時,是否有必要打亂訓練資料?
答:沒有必要。因為每個epoch的梯度計算都會使用整個訓練資料,所以打亂順序也沒有任何影響。
17.當使用小批量梯度下降時,為什麼打亂資料很重要?
答:如果不打亂資料的順序,那麼假設我們訓練乙個神經網路分類器,且有兩個類別:a和b,那麼各個epoch中的所有小批量都會完全相同,這會導致收斂速度變慢,甚至導致神經網路對資料的順序產生傾向性。
18.列舉遷移學習的超引數。
答:保留多少層、新增多少層、凍結多少層。
19. 測試集上是否需要使用dropout?
答:不可以使用!dropout只能用於訓練集。dropout是訓練過程中應用的一種正則化技術。
20.說明為什麼神經網路中的dropout可以作為正則化。
答:關於dropout的工作原理有幾種解釋。我們可以將其視為模型平均的一種形式:我們可以在每一步中「去掉」模型的一部分並取平均值。另外,它還會增加噪音,自然會產生調節的效果。最後,它還可以稀釋權重,從根本上阻止神經網路中神經元的共適應。
21. 舉個適合多對一rnn架構的例子。
答:例如:情緒分析,語音中的性別識別等。
22.我們什麼時候不能使用bilstm?說明在使用bilstm我們必須做的假設。
23. 判斷對錯:將l2正則化新增到rnn有助於解決梯度消失的問題。
答:錯誤!新增l2正則化會將權重縮小為零,在某些情況下這實際上會讓梯度消失的問題更嚴重。
24. 假設訓練錯誤/成本很高,而且驗證成本/錯誤幾乎與之相等。這是什麼意思?我們應該做些什麼?
25. 說明為何l2正則化可以解釋為一種權重衰減。
w = w -grad(c)(w) — 2cw = (1–2c)w — grad(c)(w)
在該等式中,權重乘以因子<1
—end—
你「在看」我嗎?♡
深度學習必備的5個指令碼工具詳解
如題所述,本 chat 主要詳細解析在大資料 深度學習等影象處理領域很常用的5個指令碼工具。包含了影象的獲取 影象檔案的處理 影象資料的增強處理 和影象資料不同格式間的轉換。主要包括內容 三 影象預處理之檔案批量重新命名,包括對單檔案的重新命名和資料夾內按規則對多資料夾內重新命名處理 四 影象資料批...
面試25個經典問題回答技巧
1 我們為什麼要雇請你呢?有的面試只有這麼乙個問題。2 你認為自己最大的弱點是什麼?絕對不要自作聰明地回答 我最大的缺點是過於追求完美 有的人以為這樣回答會顯得自己比較出色,但事實上,他已經岌芨可危了。3 你最喜歡的大學課程是什麼?為什麼?說和你要應聘的職位相關的課程吧,表現一下自己的熱誠沒有什麼壞...
如何面試深度學習的
基礎 一 關於現有模型 你想要招聘什麼崗位,比如人臉識別,目標檢測,ocr。然後問問當下比較流行的模型,讓其複述其結構。如何微調,注意哪些引數。二 無論是人臉識別,是目標檢測,還是ocr裡面都有一些特殊的東西,比如rpn,iou,ctw等等,讓他解釋下。階級三 基本網路 流行的網路結構,比如resn...