線性可分
線性不可分
判斷一堆資料是否能夠線性可分的關鍵在於所在維度。
從線性不可分→線性可分
,可採用公升高維度
的方式。
線性可分和線性不可分的辯證統一思想:在低維空間中資料線性不可分,通過對映到高維空間是線性可分,回到低維空間又是線性不可分的,兩者統一而矛盾。
線性不可分→線性可分
同時參考 深度學習領域最常用的10個啟用函式,一文詳解數學原理及優缺點特點:能夠把輸入的連續實值變換為0和1之間的輸出。
缺點:
在深度神經網路中梯度反向傳遞時導致梯度**和梯度消失,其中梯度**發生的概率非常小,而梯度消失發生的概率比較大
。如果我們初始化神經網路的權值為 [0,1] 之間的隨機值,由反向傳播演算法的數學推導可知,梯度從後向前傳播時,每傳遞一層梯度值都會減小為原來的0.25倍,如果神經網路隱層特別多,那麼梯度在穿過多層後將變得非常小接近於0,即出現梯度消失現象;當網路權值初始化為 ( 1 , + ∞ ) 區間內的值,則會出現梯度**情況。
sigmoid 的 output 不是0均值(即zero-centered)
。這是不可取的,因為這會導致後一層的神經元將得到上一層輸出的非0均值的訊號作為輸入。 產生的乙個結果就是:如x
>0,
f=wt
x+bx
>0,
f=wt
x+bx>0 ,f= w^tx+bx>0, f=w^tx+b
x>0,
f=wt
x+bx
>0,
f=wt
x+b,那麼對w
ww求區域性梯度則都為正,這樣在反向傳播的過程中w
ww要麼都往正方向更新,要麼都往負方向更新,導致有一種**的效果,使得收斂緩慢
。
解析式中含有冪運算
,計算機求解時相對來講比較耗時。對於規模比較大的深度網路,這會較大地增加訓練時間
。
讓損失最小化,也就是讓輸出和標籤之間更加靠近。
交叉熵損失函式(部分**交叉熵損失函式原理詳解)
iou損失函式
i ou
=∣a∩
b∣∣a
∪b∣l
oss=
1−io
uiou=\frac\\ loss=1-iou
iou=∣a
∪b∣∣
a∩b∣
los
s=1−
iouiou
iouio
u是真實框和**框的交集和並集之比,當它們完全重合時,iou
iouio
u就是1,那麼對於los
sloss
loss
來說,los
sloss
loss
是越小越好,說明他們重合度高,所以iou
loss
iou loss
ioulos
s就可以簡單表示為 1−i
ou1- iou
1−io
u批量梯度下降法(bgd)(每批樣本計算一次)
隨機梯度下降法(sgd)(每批樣本隨機抽樣計算一次)
nag演算法
sgd-m 的步長計算了當前梯度(短藍向量)和動量項(長藍向量)。然而,既然已經利用了動量項來更新 ,那不妨先計算出下一時刻θ
θθ的近似位置 (棕向量),並根據該未來位置計算梯度(紅向量),然後使用和sgd-m中相同的方式計算步長(綠向量)。這種計算梯度的方式可以使演算法更好的「**未來」,提前調整更新速率。
rmsprop演算法
adadelta演算法(結合了adagrad、rmsprop)
adam演算法(結合了adadelta和rmsprop)
我們可以看到不同演算法在損失面等高線圖中的學習過程,它們均同同一點出發,但沿著不同路徑達到最小值點。
其中 adagrad、adadelta、rmsprop 從最開始就找到了正確的方向並快速收斂;sgd 找到了正確方向但收斂速度很慢;sgd-m 和 nag 最初都偏離了航道,但也能最終糾正到正確方向,sgd-m 偏離的慣性比 nag 更大。
這裡展現了不同演算法在鞍點處的表現。
sgd、sgd-m、nag 都受到了鞍點的嚴重影響,儘管後兩者最終還是逃離了鞍點;而 adagrad、rmsprop、adadelta 都很快找到了正確的方向。
深度學習(二) 常用神經網路結構
2.記憶網路 3.圖網路 特點 每一層神經元接收前一層神經元的輸出,相當於有向無環圖 實現方式 前饋網路包括全連線前饋網路和卷積神經網路 a.多個全連線層可以從不同角度提取特徵 b.全連線層作為輸出層有分類和數值 的功能 也經常用於卷積神經網路。缺點 權重多,計算量大。應用 所有的神經網路均可以利用...
神經網路結構
定義 在機器學習和認知科學領域,人工神經網路 artificial neural network,縮寫ann 簡稱神經網路 neural network,縮寫nn 或類神經網路,是一 種模仿生物神經網路的結構和功能的計算模型,用於對函式進行估計或近似。神經網路的種類 基礎神經網路 單層感知器,線性神...
卷積神經網路結構
卷積神將網路的計算公式為 n w f 2p s 1 其中n 輸出大小 w 輸入大小 f 卷積核大小 p 填充值的大小 s 步長大小 即與用和原輸入層大小 深度完全一致的卷積核進行卷積,形成11x的全連線層 即展開 其中x由卷積核的層數決定。寫 時也可以直接展開為一維 不改變輸入層的大小,但改變輸入和...