好地滿足嚴苛的響應時間的限制。為了獲得滿足響應時間限制、具有優良表現的模型,我們提出了乙個新型框架:訓練階段,同時訓練繁簡兩個複雜度有明顯差異的網路,簡單的網路稱為輕量網路(light net),複雜的網路稱為助推
器網路(booster net),它相比前者有更強的學習能力。兩網路共享部分引數,分別學習類別標記。此外,輕量網路通過學習助推器的soft target來模仿助推器的學習過程,從而得到更好的訓練效果。測試階段,僅採用輕量網路進行**。
火箭發射過程中,初始階段,助推器和飛行器一同前行,第二階段,助推器剝離,飛行器獨自前進。在我們的框架中,訓練階段,有繁簡兩個網路一同訓練,複雜的網路起到助推器的作用,通過引數共享和資訊提供推動輕量網路更好的訓練;在**階段,助推器網路脫離系統,輕量網路獨自發揮作用,從而在不增加**開銷的情況下,提高**效果。整個過程與火箭發射類似,所以我們命名該系統為「火箭發射」。
我們框架的創新在於它新穎的訓練方式:
1、繁簡兩個模型協同訓練,協同訓練有以下好處:
b) 另一方面,助推器網路全程提供soft target資訊給輕量網路,從而達到指導輕量網路整個求解過程的目的,使得我們的方法,相比傳統方法,獲得了更多的指導資訊,從而取得更好的效果。
2、採用梯度固定技術:訓練階段,限制兩網路soft target相近的loss,只用於輕量網路的梯度更新,而不更新助推器網路,從而使得助推器網路不受輕量網路的影響,只從真實標記中學習資訊。這一技術,使得助推器網路擁有更強的自由度來學習更好的模型,而助推器網路效果的提公升,也會提公升輕量網路的訓練效果。
助推器網路和輕量網路共享部分層的引數,共享的引數可以根據網路結構的變化而變化。一般情況下,兩網路可以共享低層。在神經網路中,低層可以用來學習資訊表示,低層網路的共享,可以幫助輕量網路獲得更好的資訊表示能力。
如圖1所示,訓練階段,我們同時學習兩個網路:light net 和booster net, 兩個網路共享部分資訊。我們把大部分的模型理解為表示層學習和判別層學習,表示層學習的是對輸入資訊做一些高階處理,而判別層則是和當前子task目標相關的學習,我們認為表示層的學習是可以共享的,如multitask learning中的思路。所以在我們的方法裡,共享的資訊為底層引數(如影象領域的前幾個卷積層,nlp中的embedding),這些底層引數能一定程度上反應了對輸入資訊的基本刻畫。
整個訓練過程,網路的loss如下:
loss包含三部分:第一項,為light net對ground truth的學習,第二項,為booster net對ground truth的學習,第三項,為兩個網路softmax之前的logits的均方誤差(mse),該項作為hint loss, 用來使兩個網路學習得到的logits盡量相似。
兩個網路一起訓練,從而booster net 會全程監督輕量網路的學習,一定程度上,booster net指導了light net整個求解過程,這與一般的teacher-student 正規化下,學習好大模型,僅用大模型固定的輸出作為soft target來監督小網路的學習有著明顯區別,因為boosternet的每一次迭代輸出雖然不能保證對應乙個和label非常接近的**值,但是到達這個解之後有利於找到最終收斂的解 。
hint loss這一項在snn-mimic中採用的是和我們一致的對softmax之前的logits做l2 loss:
hinton的kd方法是在softmax之後做kl散度,同時加入了乙個rl領域常用的超參temperature t:
也有乙個半監督的工作再softmax之後接l2 loss:
實驗方面,我們驗證了方法中各個子部分的必要性。同時在公開資料集上,我們還與幾個teacher-student方法進行對比,包括knowledge distillation(kd),attention transfer(at)。為了與目前效果出色的at進行公平比較,我們採用了和他們一致的網路結構寬殘差網路(wrn)。實驗網路結構如下:
圖2:實驗所用網路結構
紅色+黃色表示light net, 藍色+紅色表示booster net。(a)表示兩個網路共享最底層的block,符合我們一般的共享結構的設計。(b)表示兩網路共享每個group最底層的block,該種共享方式和at在每個group之後進行attention transfer的概念一致。
我們通過各種對比實驗,驗證了引數共享和梯度固定都能帶來效果的提公升。
固定booster net, 改變light net的層數,rocket launching始終取得比kd要好的表現,這表明,light net始終能從booster net中獲取有價值的資訊。
通過視覺化實驗,我們觀察到,通過我們的方法,light net能學到booster net的底層group的特徵表示。
除了自身方法效果的驗證,在公開資料集上,我們也進行了幾組實驗。
在cifar-10上, 我們嘗試不同的網路結構和引數共享方式,我們的方法均顯著優於已有的teacher-student的方法。在多數實驗設定下,我們的方法疊加kd,效果會進一步提公升。
這裡wrn-16-1,0.2m 表示wide residual net, 深度為16,寬度為1,參數量為0.2m。
同時在cifar-100和svhn上,取得了同樣優異的表現。
同時,在阿里展示廣告資料集上,我們的方法,相比單純跑light net,可以將gauc提公升0.3%。
原文發布時間為:2018-10-9
阿里技術」。
阿里DMR點選率預估模型解讀
deep match to rank model for personalized click through rate prediction dmr的基本組成部分是特徵表達層和多層感知機mlp。dmr架構圖 從架構圖上看,特徵表達有多部分連線而成,item to item network根據使用者...
點選率模型的二三事
做計算廣告,點選率模型這三個字非常常見。常常會有更新點選率模型之後,公司收入翻番之類的神話誕生。今天,就從最基礎的幾個方面,來了解下點選率模型。最基本的三個方面,無非是 是什麼,為什麼,怎麼辦三個角度。先從為什麼說起,為什麼點選率模型如此之重要?廣告是網際網路的主要收入 之一,為了公司盈利著想,自然...
如何調整廣告位置提高聯盟廣告的點選率
身為站長,特別是急於通過聯盟廣告賺錢的站長,對於廣告點選率總是欲說還羞,那麼百分之幾的點選率始終程式設計客棧不盡如人意 那麼,有沒有什麼方法能夠快速提高廣告點選率?不僅是聯盟廣告,很多時候站長同樣希望給站內重要的內容找個好的位置,有沒有什麼方法能夠找出 才是 位置,下面來簡單說說如何調整廣告位置。首...