1個月前看的,快忘了,緊急回憶一下。
首先說一下看影象識別時候,百思不得其解的乙個事兒,就是自動調整框框,如果識別一條狗,訓練的時候,狗都出現在右下角,那麼,測試的時候,是不是只能識別右下角的狗,是的,是有一定的區域分布的,就要求訓練的時候,狗的位置要分布均勻比較好,這樣權重w,就會分布到各處。 最讓我困惑的是,調整rpn的4個引數△p_moveleft, △p_movetop,△p_enlargehigh,△p_enlargeweight, 會不會訓練的時候,和測試的的時候狗的位置大小不一樣,導致完全失效,訓練的到底是什麼? 其實rpn之前的特徵提取網路,可以看成是一種抽象,你看到乙個毛茸茸圓滾滾的東西,就可以看成是狗屁股,看到了狗屁股,應該怎麼迅速的框住整個夠,就是這4個引數要學的。
其次,說一下正題的lstm。lstm沒有它的名字以及各種介紹說的那麼玄乎。其實是乙個很簡單的idea。它首先要解決什麼問題?
梯度**和消失的問題。 output = w1 * w2 * w3 * w4 * w5 *w6...wn * input。w一旦小於1,梯度就容易消失,由於激勵函式的啟用區間以及標準化等問題,消失比較容易出現;那麼,怎麼搞定呢? 用短路搞定, output = input + w1*w2*...input。這樣,求導以後,保證有個1的存在。
剛看的時候,就感覺這麼多activation_fun(wx+b),是不是重複?不是的。其實是每個影響到輸出相關的都要調節,都要學習。
都有影響輸出的相關的東西呢? 當前rnn的輸入x,前面的h,以及避免梯度消失的短路的x,這個短路用的x也可以歷史累計。這樣,把所有的影響輸出的量都通過activation_fun(wx+b),加乙個隱藏進行一次抽象操作,就成了lstm。
再說注意力機制。lstm等等相當於是把之前的成果用乙個總的output_history代表。所有的之前的單元都參與到當前運算,啟用(w*x+b),這樣的最大的乙個好處是方便反向傳播求梯度,原因也顯而易見,這個式子本身就可以求導。注意力覺得太糙了,每一輪新的計算要用到之前所有的元素,當然,如果是ntm等模型,會有不同的描述方式,大體就是這個意思,具體可以看各種技術資料,我晚上還得加班到10點,沒工夫拷貝一遍了。
機器學習 注意力機制
深度學習中的注意力機制從本質上講和人類的選擇性視覺注意力機制類似,核心目標也是從眾多資訊中選擇出對當前任務目標更關鍵的資訊注意力機制就是一種加權 卷積是如何提取特徵的?卷積操作實際上是向量的內積,而兩個向量的內積代表他們的相關程度 卷積是是乙個線性的過程,為了增加非線性特徵,加入了池化層和啟用層。這...
attention注意力機制學習
目前主流的attention方法都有哪些?jaylou婁傑的回答 知乎 目前主流的attention方法都有哪些?張戎的回答 知乎 attention機制解讀 高峰ouc的文章 知乎 transformer詳解 一 attention機制詳解 被包養的程式猿丶的文章 知乎 簡說seq2seq原理及實...
深度學習 注意力機制
李巨集毅ml self attention ppt筆記 任務 輸入乙個向量序列 v1,v2,vn 輸出乙個相同長度的向量序列,如詞性標註 輸出乙個向量,如情感分析 輸出任意長度的向量序列,seq2seq 比如考慮序列標註問題,不能孤立看乙個個輸入的向量,而是要考慮整個序列。self attentio...