深度學習分類問題上,在其他條件一樣的情況,對不同的詞、權重使用均勻分布和高斯分布初始化,得到一些初步實驗結果:
1、初步值的選擇對最終結果有巨大影響
2、對於各種分布的方差的選擇可以參考1/sqrt(m),m可以簡單理解隱藏層個數
3、其實上面只是原則性一些方案,例如隱藏層節點個數=100,那麼選擇高斯分布的sigma=0.1,在實際實驗中,詞向量取的比這略大一些效果更好例如0.2,其他矩陣的初始化向量要稍微大一點例如0.8,收斂速度也較快,正確率也比0.1較高
深度學習 深度學習權重初始化
本文對cs231中的training neural networks的權重更新部分進行記錄 權重的初始化在深度神經網路中起著比較大的重要,算是乙個trick,但在實際應用上確是個大殺器。1.如果一開始把網路中的權重初始化為0,會發生什麼?因為權重初始為0,由於網路中的神經元的更新機制完全相同,由於網...
深度學習 變數初始化
權重一定不能全零初始化。因為這會導致神經元在前向傳播中計算出同樣的輸出,然後在反向傳播中計算出同樣的梯度,從而進行同樣的權重更新。這就產生了大量對稱性神經元。通常採用小隨機數初始化,通過這樣來打破對稱性。至於使用高斯分布還是均勻分布,對結果影響很小。之所以用小的隨機數,是因為 如果網路中存在tanh...
初始化 關於tensorflow的初始化
在寫mnist手寫體識別任務 已放github 時遇到的 問題 我們都知道在session run的時候需要初始化。但是初始化在什麼位置是至關重要的。來看下這段 sess tf.session sess.run tf.global variables initializer mnist model ...