1、嵌入矩陣的設定:一般來說,設定嵌入矩陣要比其基數多乙個,代表未知的參量,確定嵌入矩陣大小的經驗法則是其基數除以2,但不大於50(可以與前文所述rnn那裡一起理解)
2、adamw演算法:
一般來說,我們可以使用l2正則化來防止過擬合的出現,即在損失函式中新增所示權重的平方和組成乘法項,再乘上相應的超引數代表懲罰力度,即:
final_loss = loss + wd * all_weights.pow(2).sum() / 2
在使用原版的隨機梯度下降時,它實際上等價於:
w = w - lr * w.grad - lr * wd * w
然而,在使用其他的優化方法時,比如加入了動量的時候,這兩者是不等價的,當使用adam的時候,我們應該使用的是第二種權重衰減的方式。
3、pca(主成分分析)是現在比較常用的一種降維的方式,可在sklearn庫中直接使用。
4、word2vec:是生成詞嵌入的一種手段,能將one-hot編碼所產生的稀疏向量壓縮到乙個較小的子嵌入空間中,但用來**效能不佳;其將原本輸入句子標記為1,刪除原本句子中間單詞並用隨機單詞代替並標記為0,利用模型訓練找到標記為0的句子,我們要的就是在這個過程中生成的詞嵌入。詞嵌入是一種考慮語義的詞表示方法。
5、無論是學習哪種特徵空間,所必須要做的要麼是對資料進行標記,要麼就創造一些虛假的任務;如果我們不能想出來一些很好的虛假任務,用一些無用的虛假任務可能也很不錯,計算機視覺中採用的資料增強,某種程度上也算一種虛假任務;autoencoder是乙個輸入等於輸出的任務,相當於重構自身,保證中間層的啟用量小於輸入量,可以說是乙個假任務,但取得了不錯的效果。
Python深度學習 學習筆記(十三)
上一節,我們提到了rnn已經rnn在keras中最簡單的層 rnn。但 rnn由於過於簡化,沒有實用價值。實際上,它不可以學到長期依賴。原因在於梯度消失問題,當運用比較多的非迴圈層時,而讓網變得無法訓練。同樣的問題其實也普遍發生在密集連線層。今天介紹的lstm long short term mem...
第十三次作業 深度學習 卷積
1.簡述人工智慧 機器學習和深度學習三者的聯絡與區別。答 人工只能包括了機器學習和深度學習,而機器學習又包含了深度學習。人工智慧是目的,是結果 深度學習 機器學習是方法,是工具 機器學習是一種實現人工智慧的方法,機器學習直接 於早期的人工智慧領域。深度學習是一種實現機器學習的技術,深度學習使得機器學...
學習Python 十三
import signal define signal handler function def myhandler signum,frame print i received signum register signal.sigtstp s handler signal.signal signal...