共享隱層, 多個任務並行訓練並共享不同任務已學到的特徵表示
(1)交替訓練:不同任務,不同的資料集,一次優化一層,每層都有乙個loss,乙個optimiser
(2)聯合訓練:不同任務,相同的資料集,一次優化一層,每層都有乙個loss,loss相加,一共乙個optimiser
(1)sigmoid:y(z
)=11
+e−z
,z=∑
wixi
+b
y(z) = \frac}, z = \sum w_ix_i+b
y(z)=1
+e−z
1,z
=∑wi
xi
+b
(2)tanh:tan
h(x)
tanh(x)
tanh(x
):(sigmoid影象下移0.5)解決sigmoid不關於原點對稱
(3)relu修正線性單元(rectified linear unit)(常用):max
(0,x
)max(0,x)
max(0,
x):
(4)leaky relu:max
(αx,
x)
max(αx, x)
max(αx
,x):修正dead relu
(5)elu:
f (x
)=
x& x>0\\ α(exp(x)-1)& x<=0 \end
f(x)
=-\eta*df(x_+αv_),x_t =x_+ v_t
vt=αv
t−1
−η∗d
f(xt
−1+
αvt−
1),
xt=
xt−1
+vt
(4)adagrad:cac
he+=
dx2,
x+=−
η∗dx
np.s
qrt(
cach
e)+1
e−
7cache += dx^2,x += \frac
cache+
=dx2
,x+=
np.s
qrt(
cach
e)+1
e−7−
η∗dx
自適應學習率,每個維度都不一樣,梯度大的方向因為除的數越來越大而使步長變得越來越小,梯度小的越來越大;深度太大的時候,分母=0,x不再變化,結束訓練
(5)rmsprop:解決提前結束的問題
c ac
he=α
∗cac
he+(
1−α)
∗dx2
cache = \alpha * cache + (1- \alpha) * dx^2
cache=
α∗ca
che+
(1−α
)∗dx
2,#α
\alpha
α衰減率
x +=
−η∗d
xnp.
sqrt
(cac
he)+
1e−7
x += \frac
x+=np.
sqrt
(cac
he)+
1e−7
−η∗d
x(6)adam:rmsprop +momentum(β超參,t時間步長)
m =β
1∗m+
(1−β
1)∗d
xm = β_1 * m + (1-β_1)*dx
m=β1∗
m+(1
−β1
)∗dx
#動量,梯度的一階矩
m /=
1−β1
tm /= 1-β_1^t
m/=1−β
1t #偏置校正,一種針對m、v初始為0的補償措施,在開始時把m、v變大
v =β
2∗v+
(1−β
2)∗d
x2
v = β_2 * v + (1-β_2)*dx^2
v=β2∗
v+(1
−β2
)∗dx
2 #二階矩
v /=
1−β2
tv /= 1-β_2^t
v/=1−β
2tx+=
−η∗m
np.s
qrt(
v)+1
e−
7x += \frac
x+=np.
sqrt
(v)+
1e−7
−η∗m
哪種更好?哪種都不好。應該開始階段使用高學習率,後面降低
常用的兩種凸函式求極值的方法
欠擬合
梯度**
執行operation或者求值tensor有兩種方式
1)呼叫tf.session.run(fetches, feed_dict=none)
2)呼叫operation.run(session)
3)呼叫tensor.eval(session)
秋招材料整理 基礎(計算機網路等)
二 tcp四次揮手 三 udp vs.tcp 四 程序 vs.執行緒 五 程序狀態 六 程序間通訊 七 死鎖,產生條件 八 python裡面字典底層怎麼實現的 九 動態規劃 vs.貪心演算法 十 堆疊區別 十一 排序複雜度 1 首先 b 處於 listen 監聽 狀態,等待客戶的連線請求。2 a 向...
2019 7 2,3秋招學習筆記
當返回乙個物件不可被避免的時候,因返回的過程中產生的臨時物件,構造和析構仍被執行所以會影響到程式效率。但是可以通過特定的寫法,搭配支援 return value optimization 的c 編譯器,只需要付出乙個構造函式呼叫的代價即可完成返回值賦值。並且可以將函式宣告為inline,從而消除呼叫...
2019 7 10秋招學習筆記
解釋參考 include include include include using namespace std enum tag typedef struct node node typedef struct tagnode tagnode 前序遍歷,根左右 vector int preorder...