乙個神經網路泛化的新視角剛性

發表日期：1/28/2019

在下面這些方面，存在剛性（stiffness）的變化:

1) 類別成員

2) 資料點之間的距離（在輸入空間以及潛碼空間）

3) 訓練迭代

4) 學習率

從理論角度分析，作者定義了兩個資料點(x1,y1)和(x2,y2)，並且定義了可調參的w矩陣，l表示損失函式，所以l的梯度可以表示為乙個向量g：

可以定義乙個很小的引數w變化

等價於：

從shuru輸入1到輸入2的損失函式變化可以表示為：

定義正剛性:負剛性：零剛性：

sign為符號函式，可以看出剛性本身是個標量。

基於類成員的剛性

設有兩個類ca,cb: 兩個類之間剛性定義為：

該矩陣的對角線元素對應於當前梯度更新對類本身成員的適合性。特別是，它們對應於類普遍性。另一方面，非對角線元素表示從乙個類轉移到另乙個類的改進量。因此，他們直接診斷當前改進的特徵具有的通用性。我們使用驗證集的剛度屬性，因此直接進行泛化。

類之間的一般化的一致概括是類剛度矩陣的非對角線和的平均：

nc代表類別數。

剛性作為距離函式

之後採取l1和l2距離，以及點乘作為量度。

其結果在-1和1之間，因此便於不同層之間距離的比較。

在包括輸入空間的所有表示中，我們確定輸入之間的剛度量的急劇下降超過彼此的閾值距離。我們跟蹤該閾值距離作為訓練和學習速率的函式來估計神經網路的剛性區域的特徵尺寸。

剛性的影響。

圖表顯示了訓練和驗證損失（下圖）和類依賴剛度屬性（上圖）的演變，作為訓練期間看到的影象數量的函式。

過度擬合的開始（訓練和有效損失曲線之間的分離）用黃線標出。類內剛度，即在同一類別中從乙個輸入位置到另乙個輸入位置的改進的轉移在過度擬合期間下降並且回歸到0。類間剛度，開始平穩並且回歸到0。這表明剛度之間的直接聯絡在驗證集和泛化上測量的屬性，表明剛度是研究的相關屬性。

對於全連線神經網路的實驗，我們使用了形式為x→400→2005→y的6層relu網路。對於使用卷積神經網路的實驗，我們使用具有濾波器大小3的5層網路，並且在相應的卷積層之後的通道數量是32,64,128和256，每個網路之後是2×2最大池。最後一層是完全連線的。沒有使用批量標準化。

我們對網路輸入進行了預處理，使其具有零均值和單位方差。我們使用不同（恆定）學習率的adam作為我們的優化器，預設批量大小為32。

乙個神經網路泛化的新視角 剛性