Capsule 膠囊網路學習筆記

以前鄒班的smt沒認真聽，還得重新回來撿。

參考自：

cnn的缺點：

忽略了中的位置資訊，如果在中檢測到眼睛鼻子等，就認為這是一張人臉，但如果把這些器官打亂，還是會誤識別為人臉，這是cnn中max pooling的特性造成的。

如上圖所示，我們通俗的將每個神經元的輸出理解為這張圖具有此特徵的可能性（接近1就越可能具有某種特徵），這裡是用乙個scale標量來表示是否具有此特徵，capsule的思想就是把這些特徵做出embedding，用乙個向量來表示。所以就使得神經元的輸出是向量而不是標量。

膠囊網路的單元結構和普通的神經元的區別在上圖很明顯了。核心思想大概就這些，具體細節或其他可以參考引用中的部落格或者原文。

cnn現存的問題就是池化提供了區域性不變性，但是丟失了位置等資訊。1和4無法檢測出來。使用膠囊作為網路的基本單元。計算結果封裝到乙個特徵向量中。用來表示可視實體，包括姿態方位大小等。動態路由演算法代替池化操作，以保留相關的方位資訊。特徵向量表示可視實體實體的存在概率具有區域性不變性膠囊覆蓋的...

膠囊網路原 dynamic routing between capsules 中給出如下的網路結構輸入層卷積層主膠囊層數字膠囊層。圖中輸入為28 28的mnist手寫數字，經過256個9 9步長為1的卷積核得到20 20 256的特徵圖，該層就是普通的卷積神經網路，下一層採用8組9 9 32...