read data: 0620
publication: 網路
title: repmlp: re-parameterizing convolutions into fully-connected layers for image recognition
participants: xiaohan ding ,xiangyu zhang ,jungong han,guiguang ding
aim:
本文重新討論了全連線(fc)層,為傳統的convnet提供全域性捕捉和位置感知。
research question:
相比卷積層,全連線層更為高效,可以進行更好的長期依賴與位置模式建模,但在區域性結構提取方面較差,因此通常不太適合於影象識別。
在某些情況下,我們直接使用fc作為特徵對映之間的轉換來代替conv。通過展平特徵圖,通過fc將其輸入,然後重新調整,我們可以享受位置感知(因為它的引數與位置相關)和全域性捕捉(因為每個輸出點與每個輸入點相關)。無論從實際速度還是理論flops來看,這種運算都是高效的。
method:
本文提出一種結構重引數技術,它為全連線層新增了區域性先驗資訊以使其可以進行強有力的影象識別。在訓練階段,我們在repmlp內部構建了卷積層,而在推理階段,我們將這些卷積層合併到全連線層內。
具體來說:我們在訓練過程中構造平行於fc的conv和batch normalization (bn)層,然後將訓練後的引數合併到fc中,以減少引數的數量和推理延遲。在此基礎上,我們提出了一種重新引數化的多層感知器(repmlp)。如圖1所示,訓練時間repmlp有fc層、conv層和bn層,但可以等效轉換為只有三個fc層的推理時間塊。結構重引數化的意義在於訓練時間模型有一組引數,推理時間模型有另一組引數,我們將訓練時間模型的引數轉化為推理時間模型的引數。
results:
在cifar資料集上,簡簡單單的mlp模型即可取得與cnn非常接近的效能。通過將repmlp插入到現有cnn中,我們在imagenet資料集上提公升resnets模型精度達1.8%,在人臉識別任務上提公升2.9%,在cityscapes提公升2.3%miou精度且具有更低的flops。
discussion:
該發現說明:全連線層的全域性表達、位置感知能力與卷積的區域性結構提取能力的組合能夠以更快的速度在平移不變任務(比如語義分割)、影象對齊+位置模式相關任務(比如人臉識別)上的效能。
conclusion:
乙個fc比乙個conv具有更強的表示能力,因為後者可以被視為乙個具有共享引數的稀疏fc。然而,乙個fc沒有區域性先驗,這使得它不適合影象識別。在本文中,我們提出了repmlp,它利用了fc的全域性捕捉和位置感知,並通過一種簡單的平台無關的演算法重新引數化卷積,將區域性先驗整合到fc中。從理論角度看,將卷積網路視為fc的退化案例,開闢了乙個新的視角,可以加深我們對傳統卷積網路的理解。
further:
需要注意的是,repmlp是為主要關注推斷速度和準確性,而不太注重引數數量的應用程式場景設計的。
ref:
1提出利用全連線層的全域性建模、位置感知能力,並加上區域性先驗,使其適用於影象識別任務;
2提出一種簡單的、平台不可知的、可微分演算法用於將並行卷積、bn合併到全連線層中,使其具有區域性先驗且不造成任何推理耗時增加;
3提出一種高效模組repmlp,並在多個視覺任務上證實了其有效性。
問題:對解析度以及引數要求較大。
每日文獻 2018 01 10
為了能夠適應環境,植物需要監控自身的代謝途徑,能夠符合當前的生長和防禦。初期代謝產物可以通過遍在保守tor target of rapamycin 通路進行衡量,在有限的能量和影響下平衡生長和發育之間的關係。最新的工作表明,植物能夠先估計防禦性代謝產物,制定好某些策略從而快速將資源重定位到植物生長和...
每日文獻 2018 01 12
每到年終大家都愛做總結,除了我在每日文獻 2018 01 08提到的比對工具年鑑更新到了2017版,各大生物資料中心也開始紛紛做總結,然後發一篇核酸研究nar.這三篇文章的標題和位址如下 地點資料庫名 原文標題 美國ncbi database resources of the national ce...
每日文獻 2018 01 29
這是一篇發表在 briefings in bioinformatics 的文章,這篇文章最大的亮點在於,作者只有乙個人,但是在摘要裡面,他可能害怕寂寞,於是在摘要裡我見到了 we,而不是i,或許他乙個人就是乙個團隊吧。這篇文章的工作等同把乙個公司的流程拿出來發,我們來比較一下公司的流程和他的流程 文...