殘差神經網路 深度殘差收縮網路的新解讀

2021-10-12 04:41:42 字數 2853 閱讀 4731

近年來,人工智慧領域湧現了大量優秀的成果。本文圍繞一種新的深度學習方法,即深度殘差收縮網路,展開詳細的解讀,希望對大家有所幫助。

顧名思義,深度殘差收縮網路是在「殘差網路」基礎上的一種改進演算法,是由「殘差網路」和「收縮」兩部分所組成的。其中,殘差網路在2023年斬獲了imagenet影象識別競賽的冠軍,目前已經成為了深度學習領域的基礎網路;收縮就是軟閾值化,是許多訊號降噪方法的核心步驟;在深度殘差收縮網路中,軟閾值化所需要的閾值,在本質上是借助注意力機制設定的。

在本文中,我們首先對殘差網路、軟閾值化和注意力機制的基礎知識進行了簡要的回顧,然後對深度殘差收縮網路的動機、演算法和應用展開解讀。

從本質上講,殘差網路(又稱深度殘差網路、深度殘差學習)是一種卷積神經網路。相較於普通的卷積神經網路,殘差網路採用了跨層恒等連線,以減輕卷積神經網路的訓練難度。殘差網路的一種基本模組如圖1所示。

軟閾值化是許多訊號降噪方法的核心步驟。它的用處是將絕對值低於某個閾值的特徵置為零,將其他的特徵也朝著零進行調整,也就是收縮。在這裡,閾值是乙個需要預先設定的引數,其取值大小對於降噪的結果有著直接的影響。軟閾值化的輸入與輸出之間的關係如圖2所示。

從圖2可以看出,軟閾值化是一種非線性變換,有著與relu啟用函式非常相似的性質:梯度要麼是0,要麼是1。因此,軟閾值化也能夠作為神經網路的啟用函式。事實上,一些神經網路已經將軟閾值化作為啟用函式進行了使用。

注意力機制就是將注意力集中於區域性關鍵資訊的機制,可以分為兩步:第一,通過掃瞄全域性資訊,發現區域性有用資訊;第二,增強有用資訊並抑制冗餘資訊。

squeeze-and-excitation network是一種非常經典的注意力機制下的深度學習方法。它可以通過乙個小型的子網路,自動學習得到一組權重,對特徵圖的各個通道進行加權。其含義在於,某些特徵通道是比較重要的,而另一些特徵通道是資訊冗餘的;那麼,我們就可以通過這種方式增強有用特徵通道、削弱冗餘特徵通道。squeeze-and-excitation network的一種基本模組如下圖所示。

值得指出的是,通過這種方式,每個樣本都可以有自己獨特的一組權重,可以根據樣本自身的特點,進行獨特的特徵通道加權調整。例如,樣本a的第一特徵通道是重要的,第二特徵通道是不重要的;而樣本b的第一特徵通道是不重要的,第二特徵通道是重要的;通過這種方式,樣本a可以有自己的一組權重,以加強第一特徵通道,削弱第二特徵通道;同樣地,樣本b可以有自己的一組權重,以削弱第一特徵通道,加強第二特徵通道。

首先,現實世界中的資料,或多或少都含有一些冗餘資訊。那麼我們就可以嘗試將軟閾值化嵌入殘差網路中,以進行冗餘資訊的消除。

其次,各個樣本中冗餘資訊含量經常是不同的。那麼我們就可以借助注意力機制,根據各個樣本的情況,自適應地給各個樣本設定不同的閾值。

與殘差網路和squeeze-and-excitation network相似,深度殘差收縮網路也是由許多基本模組堆疊而成的。每個基本模組都有乙個子網路,用於自動學習得到一組閾值,用於特徵圖的軟閾值化。值得指出的是,通過這種方式,每個樣本都有著自己獨特的一組閾值。深度殘差收縮網路的一種基本模組如下圖所示。

深度殘差收縮網路的整體結構如下圖所示,是由輸入層、許多基本模組以及最後的全連線輸出層等組成的。

在**中,深度殘差收縮網路是應用於基於振動訊號的旋轉機械故障診斷。但是從原理上來講,深度殘差收縮網路面向的是資料集含有冗餘資訊的情況,而冗餘資訊是無處不在的。例如,在影象識別的時候,影象中總會包含一些與標籤無關的區域;在語音識別的時候,音訊中經常會含有各種形式的雜訊。因此,深度殘差收縮網路,或者說這種「深度學習」+「軟閾值化」+「注意力機制」的思路,有著較為廣泛的研究價值和應用前景。

[1] k. he, x. zhang, s. ren, et al. deep residual learning for image recognition. ieee conference on computer vision and pattern recognition, 2016: 770-778.

[3] j. hu, l. shen, g. sun. squeeze-and-excitation networks. ieee conference on computer vision and pattern recognition, 2018: 7132-7141.

[4] d.l. donoho. de-noising by soft-thresholding. ieee transactions on information theory, 1995, 41(3): 613-627.

[5] k. isogawa k, t. ida, t. shiodera, et al. deep shrinkage convolutional neural network for adaptive noise reduction. ieee signal processing letters, 2017, 25(2): 224-228.

[6] m. zhao, s, zhong, x. fu, et al. deep residual shrinkage networks for fault diagnosis. ieee transactions on industrial informatics, 2019, doi: 10.1109/tii.2019.2943898

殘差神經網路 殘差網路學習心得

殘差網路介紹 resnets是由殘差塊構建的,首先先解釋一下什麼是殘差塊。這是乙個兩層神經網路在l層進行啟用。計算過程是從a l 開始,首先進行線性啟用 根據這個等式,通過a l 算出z l 1 即a l 乘以權重矩陣再加上偏差因子,然後通過非線性relu啟用得到a l 1 隨後我們再進行線性啟用,...

深度殘差網路

深度殘差學習 deep residual learning 的思想 在residual net中 1 identity 為恒等對映,此條路徑一直存在 2 f x 為需要學習的殘差函式 residual function h x x f x 問題的重新表示或預處理會簡化問題的優化 假設我們期望的網路層...

深度學習理論 殘差神經網路

我們知道,網路層數越深,其表達能力越強,但之前人們並不敢把網路設計的太深,因為會有梯度衰減等各種問題讓網路的效能大幅度下滑,用一些正則化,relu等啟用函式也不能完全避免。但有了殘差網路,人們可以把網路的層數設計的很深,比如幾百層。其基本思想如下 在傳統的平網路 plain network 中,一層...