深度學習(計算機視覺)面試問題總結 隨時補充

2021-09-27 09:18:28 字數 1614 閱讀 4834

答:

1. 預訓練加微調

—— 每次訓練一層隱節點,訓練時將上一層隱節點的輸出作為輸入,而本層隱節點的輸出作為下一層隱節點的輸入,此過程就是逐層「預訓練」;在預訓練完成後,再對整個網路進行「微調」(fine-tunning)。在各層預訓練完成後,再利用bp演算法對整個網路進行訓練。此思想相當於是先尋找區域性最優,然後整合起來尋找全域性最優,此方法有一定的好處,但是目前應用的不是很多了。

2. 梯度剪下、權重正則(針對梯度**)

—— 設定乙個梯度剪下閾值,然後更新梯度的時候,如果梯度超過這個閾值,那麼就將其強制限制在這個範圍之內。這可以防止梯度**;權重正則化(weithts regularization),如l1正則、l2正則,通過對網路權重做正則限制過擬合。

3. 使用不同的啟用函式

4. 使用batchnorm

5. 使用殘差結構

—— 原因就在於殘差的捷徑(shortcut)

6. 使用lstm網路

—— 主要原因在於lstm內部複雜的「門」(gates),通過它內部的「門」可以接下來更新的時候「記住」前幾次訓練的」殘留記憶「

答:(1)3x3是最小的能夠捕獲畫素八鄰域資訊的尺寸。

(2)兩個3x3的堆疊卷基層的有限感受野是5x5;三個3x3的堆疊卷基層的感受野是7x7,故可以通過小尺寸卷積層的堆疊替代大尺寸卷積層,並且感受野大小不變。所以可以把三個3x3的filter看成是乙個7x7filter的分解中間層有非線性的分解, 並且起到隱式正則化的作用。

(3)多個3x3的卷基層比乙個大尺寸filter卷基層有更多的非線性(更多層的非線性函式,使用了3個非線性啟用函式),使得判決函式更加具有判決性。

(4)多個3x3的卷積層比乙個大尺寸的filter有更少的引數,假設卷積層的輸入和輸出的特徵圖大小相同為c,那麼三個3x3的卷積層引數個數3x((3x3xc)xc)=27c2;乙個(7x7xc)xc的卷積層引數為49c2。

注:卷積層的引數量計算

假設該卷積層的卷積核為3×3,為了清晰明了,假設卷積層的輸入和輸出的特徵圖(featuremap)大小(其實是channel通道數)分別為c1,c2。(卷積核,乙個多維的矩陣k×k×channels,其中channels是由輸入的featuremap的通道數決定的,而卷積層中卷積核的個數是由輸出的featuremap的通道數決定的)。

所以該卷積層的參數量是:(3×3×c1)× c2

說明:(3×3×c1) —— 是每乙個卷積核的參數量(輸入)

× c2  —— 是總共c2個卷積核(輸出的通道數)     

在不影響輸入輸出維數的情況下,對輸入進行線性形變,然後通過relu進行非線性處理,增加網路的非線性表達能力。

(一).參數量

cnn網路的參數量和特徵圖的尺寸無關,僅和卷積核大小k、偏置o及bn有關。對於卷積張量kernel=(k, s, c, o),權重參數量為k∗k∗c∗o ,偏置參數量為o,如果使用了bn,那麼還有兩個可學習引數α,β,參數量都是o,總共2*o。綜上,該卷積層所有的參數量為:k∗k∗c∗o+3∗o

注:上面計算的僅僅是模型的參數量。若要計算模型實際需要多少視訊記憶體,還要考慮特徵圖的大小,因為每一層卷積的輸出都需要快取,還要bn計算出來的均值和偏差也需要快取,權重的梯度也需要快取。通常模型引數所占用的視訊記憶體比例很小。

計算機視覺 深度學習基礎

與神經網路的區別 傳統一般三層以內,深度可達上千層 傳統通常是全連線,深度形式多樣 共享權值,跨層的反饋等 目標函式 均方誤差 交叉熵 交叉熵能在深度學習模型下快速提高精度 為了避免交叉熵出現0,使用softmax層來突出最大值並轉換成概率 激勵函式 sigmoid relu 當神經元一層層疊加之後...

計算機視覺學習總結

計算機視覺 工具 opencv caffe tensorflow python c opencv演算法精解 基於python與c 關注 斯坦福李飛飛 深度學習計算機視覺 計算機視覺領域的一些牛人部落格,超有實力的研究機構等的 鏈結 annotated computer vision bibliogr...

計算機視覺 深度學習知識點總結

每秒處理影象的幀數 每秒浮點運算次數 每秒峰值速度。10億次 每秒是衡量處理器計算能力的指標單位 roi pooling 根據輸入image,將roi對映到feature map對應位置 將對映後的區域劃分為相同大小的sections sections數量與輸出的維度相同 對每個sections進行...