深度學習面試

cnn抓住此共性的手段主要有四個：區域性連線／權值共享／池化操作／多層次結構。

relu：

解決了gradient vanishing問題 (在正區間)

計算速度非常快，只需要判斷輸入是否大於0

收斂速度遠快於sigmoid和tanh

loss. 有哪些定義方式（基於什麼？），有哪些優化方式，怎麼優化，各自的好處，以及解釋

stochastic gradient descent (sgd), adaptivegradient (adagrad), and nesterov』s accelerated gradient (nag)。

26.神經網路中啟用函式的真正意義？乙個啟用函式需要具有哪些必要的屬性？還有哪些屬性是好的屬性但不必要的？

解析：（1）非線性：

（2）幾乎處處可微：

（3）計算簡單

（4）非飽和性（saturation）：飽和指的是在某些區間梯度接近於零（即梯度消失），使得引數無法繼續更新的問題。最經典的例子是sigmoid，它的導數在x為比較大的正值和比較小的負值時都會接近於0。更極端的例子是階躍函式，由於它在幾乎所有位置的梯度都為0，因此處處飽和，無法作為啟用函式。relu在x>0時導數恒為1，因此對於再大的正值也不會飽和。但同時對於x<0，其梯度恒為0，這時候它也會出現飽和的現象（在這種情況下通常稱為dying relu）。leaky relu[3]和prelu[4]的提出正是為了解決這一問題。

（5）單調性（monotonic）：即導數符號不變。這個性質大部分啟用函式都有，除了諸如sin、cos等。個人理解，單調性使得在啟用函式處的梯度方向不會經常改變，從而讓訓練更容易收斂。

（6）輸出範圍有限：有限的輸出範圍使得網路對於一些比較大的輸入也會比較穩定，這也是為什麼早期的啟用函式都以此類函式為主，如sigmoid、tanh。但這導致了前面提到的梯度消失問題，而且強行讓每一層的輸出限制到固定範圍會限制其表達能力。因此現在這類函式僅用於某些需要特定輸出範圍的場合，比如概率輸出（此時loss函式中的log操作能夠抵消其梯度消失的影響[1]）、lstm裡的gate函式。

（8）引數少：大部分啟用函式都是沒有引數的。像prelu帶單個引數會略微增加網路的大小。還有乙個例外是maxout[7]，儘管本身沒有引數，但在同樣輸出通道數下k路maxout需要的輸入通道數是其它函式的k倍，這意味著神經元數目也需要變為k倍；但如果不考慮維持輸出通道數的情況下，該啟用函式又能將引數個數減少為原來的k倍。

梯度**：訓練過程中出現梯度**會伴隨一些細微的訊號

（1）重新設計網路模型

在深度神經網路中，梯度**可以通過重新設計層數更少的網路來解決。

使用更小的批尺寸對網路訓練也有好處。

在迴圈神經網路中，訓練過程中在更少的先前時間步上進行更新（沿時間的截斷反向傳播，truncated backpropagation through time）可以緩解梯度**問題。

（2）使用 relu 啟用函式

在深度多層感知機神經網路中，梯度**的發生可能是因為啟用函式，如之前很流行的 sigmoid 和 tanh 函式。

使用 relu 啟用函式可以減少梯度**。採用 relu 啟用函式是最適合隱藏層的新實踐。

（4）使用梯度截斷（gradient clipping）

在非常深且批尺寸較大的多層感知機網路和輸入序列較長的 lstm 中，仍然有可能出現梯度**。如果梯度**仍然出現，你可以在訓練過程中檢查和限制梯度的大小。這就是梯度截斷。

（5）使用權重正則化（weight regularization）

如果梯度**仍然存在，可以嘗試另一種方法，即檢查網路權重的大小，並懲罰產生較大權重值的損失函式。該過程被稱為權重正則化，通常使用的是 l1 懲罰項（權重絕對值）或 l2 懲罰項（權重平方）。

正如我們預期那樣，執行時間確實隨著批大小的增加而下降。然而，這導致了測試正確率的妥協，因為測試正確率隨著批大小的增加而單調遞減。

邊框回歸學習就是dx(p),dy(p),dw(p),dh(p)這四個變換。

w∗=argminw∗∑in(ti∗−w^t∗ϕ5(pi))2+λ||w^∗||2

利用梯度下降法或者最小二乘法就可以得到 w∗。

什麼是深度學習中的anchor？

解析：當我們使用乙個3*3的卷積核，在最後乙個feature map上滑動，當滑動到特徵圖的某乙個位置時，以當前滑動視窗中心為中心對映回原圖的乙個區域(注意 feature map 上的乙個點是可以對映到原圖的乙個區域的，相當於感受野起的作用)，以原圖上這個區域的中心對應乙個尺度和長寬比，就是乙個anchor了。

faster r-cnn 採用與 fast r-cnn 相同的設計，只是它用內部深層網路代替了候選區域方法。新的候選區域網路（rpn）在生成 roi 時效率更高，並且以每幅影象 10 毫秒的速度執行。

深度學習面試

深度學習面試

深度學習面試準備

如何面試深度學習的

深度學習面試

深度學習面試

深度學習面試準備

如何面試深度學習的

相關推薦