x_data:輸入資料
y_data:資料真實標籤
w:權重
b:偏量
神經元:wx_data+b
啟用函式σ() :tanh() sigmoid() relu()
隱藏層輸出:output = σ(wx_data+b)
softmax():主要用於分類網路的輸出層,使得每個輸出的概率在0-1之間,並且所有的概率和為1
epoch:迭代的次數,代表需要將資料集訓練的次數
batch:批量資料處理,代表每次餵入網路中進行梯度下降的資料的個數,而這樣需要餵入x_data_size/batch次才能完成乙個epoch
loss:損失函式,需要優化的乙個函式,通過改變w和b使得loss越小(即y_data-output)越小。
gradient descent:梯度下降,通過這種方式來更新引數w和b
欠擬合、正常擬合和過擬合。
欠擬合:模型不能很好的去擬合資料,也就是訓練時候的loss可能都比較大
正常擬合:訓練時loss和測試的loss很接近。
過擬合:訓練的太過了,訓練的時候loss很小,準確率很好,但是模型的泛化能力太弱了,在測試的時候準確率很低。
防止過擬合的方法:
1)增加資料集
2)代價函式中新增正則項 c=c』+正則項(引數w的函式)
3)dropout,訓練的時候隨機丟掉一些結點
優化器(梯度下降的優化演算法):
1.隨機梯度下降、標準梯度下降和批處理梯度下降(這個在之前的部落格有寫過)
2.momentum:這個優化器的思想是當前的權值w的改變會受到上一次權值改變的影響,類似於小球滾動帶上了慣性,這樣可以加速小球向下滾動的速度。
3.adagrad:它是隨機梯度下降的一種延申演算法。其核心思想是對比較常簡的資料給予比較小的學習率去調整引數,對於比較罕見的資料給予比較大的學習率去調整引數。這個優化器適用於資料稀疏的資料集(比如乙個訓練集,其中有10000張是a類,1000張是b類,100張是c類。)這個演算法的優點在於它不需要人為的去調節學習率,學習率可以自動的調節。缺點是隨著迭代次數的增加,學習率會下降,並趨向於0.
4.rmsprop(root mean square):這個優化器是借鑑了adagrad的思想,但是他只用到了前t-1次的梯度平方的平均值加上當前梯度的平方的和的開平方作為學習率的分母。這樣子,rmsprop不會出現學習率越來越低的情況,並且可以自己調節學習率。
5.adadelta:不需要設定預設學習率,不需要學習率就可以達到很好的效果。
6.adam:像adadelta和rmsprop一樣,adam也會儲存之前衰減的平方梯度,同時它也會儲存之前的衰減梯度。經過一些處理之後再使用類似adadelta和rmsprop的方式更新引數。
神經網路各個部分的作用 徹底理解神經網路
這些題目來自知識星球 cv技術指南 免費版 的日常作業 專注於計算機視覺的技術總結 最新技術跟蹤 經典 解讀 cv招聘資訊。我們說的網路越深,模型效果越好,指的是可訓練引數越多,模型的特徵提取能力或表示能力更好。因此,神經網路的層數只與可訓練引數的層數有關,層數等於卷積層 全連線層數量。bn層 池化...
神經網路數學基礎 卷積神經網路 部分實戰訓練
神經網路的數學基礎 1.矩陣線性變換 起到尺度和旋轉上的變化,w x與公升降維 放大縮小相關,b與平移相關 與彎曲相關 2.矩陣的秩 秩越低,資料分布越容易 捉,相關性大 奇異值 低秩近似 保留決定資料分布最主要的模式 方向 3.概率 概率分布 似然函式 對數似然函式 最大對數似然 4.策略設計 機...
神經網路各個網路引數設定原則
網路引數確定原則 網路節點 網路輸入層神經元節點數就是系統的特徵因子 自變數 個數,輸出層神經元節點數就是系統目標個數。隱層節點擊按經驗選取,一般設為輸入層節點數的75 如果輸入層有7個節點,輸出層1個節點,那麼隱含層可暫設為5個節點,即構成乙個7 5 1 bp神經網路模型。在系統訓練時,實際還要對...