cs224n 第11講,複習了一些rnn知識,講到了gru以及機器翻譯
mt評價
關於gru的介紹之前也講過,簡單回顧一下
上圖展示的更新方式,綠色標記的是對當前資訊的計算,ht−
1h_ht−1
是之前時刻的資訊,u
tu_t
ut用來控制記住當前輸入資訊和之前時刻資訊的比例。
之前也說過,這種方式導致乙個問題,就是不能把之前時刻的資訊完全忘記,所以還需要乙個reset gate
樸素rnn的暫存器只能讀取或者更新整個暫存器,不夠靈活
而gru有門控單元,可以靈活的選擇讀取哪些暫存器
gru和lstm在本質上是很相似的,兩者最重要的公式十分類似,如圖中標記的公式。課程中提問了很多問題,我個人覺得,這兩種結構的基本思想是一致的,公式的細微不同之處造成的差異性很小,硬要解發布兩者的區別,只能從公式中強行解釋。
下面這張圖對lstm進行形象化的表示,圖中標記的地方算是最重要的地方,也就是加號的使用,這種思想解決了梯度的一系列問題。
lstm能夠更長時間的儲存資訊,如下圖演示
這裡提到的trick就是訓練多個模型,投票**,課程中說效果很好
bleu是現在常用的機器翻譯評價方法,其思想是通過比較標準譯文與翻譯譯文中n-gram的重疊比率來衡量翻譯質量
這裡不使用1-gram的原因是,很容易想到的作弊方式就是翻譯譯文輸出大量的the來提公升匹配率,比如參考翻譯有7個詞,候選翻譯輸出7個the,那麼這個翻譯的得分就是1,這顯然是不對的。
另外乙個問題是,當譯文太短時,n-gram方式也很容易得高分。比如參考譯文1是「the cat is on the mat」,參考譯文2是「there is a cat on the mat」,候選譯文輸出「the cat」,那麼得分又是1(1/2+1/2)。所以還需要有效的懲罰措施,對短譯文進行懲罰。bp當候選譯文比參考譯文短時小於1,進行懲罰。
使用多篇參考譯文,能夠保證黨翻譯的譯文很好時,總能和某篇譯文相似度高。ibm建議的數量是4。
bleu的打分情況和人類打分幾乎是一致的(線性相關)
這裡說的大詞表問題就是在**乙個單詞時,需要做softmax,當詞表過大時,softmax的運算代價就會很高。
manning提到了幾個不太好的方法,比如減小詞表,建立樹形詞表等。
一種比較好的方法是每次訓練都是用詞彙表的子集。
training
讓用詞相似的文章進入同一子集
testing
測試的時候先雷打不動將前k個最常使用的單詞加入備選詞表,然後將原文中每個單詞可能的前k′個翻譯加進去。最後在備選詞表上softmax。
後面還有些內容沒有講完,估計下節課manning會補上吧。。。
CS224n筆記一 開端
自然語言處理的目標是讓計算機處理或者 理解 自然語言,以完成有意義的任務,如qa等。形態學 morphological analysis 或稱詞法或者詞彙形態學。其研究詞的內部結構,包括屈折變化和構詞法兩個部分。句法分析 syntactic analysis 和語義分析 semantic inter...
CS224N 語言模型介紹
語言模型實現 語言模型是指根據給定序列 下乙個單詞的任務,其形式化表達為 給定單詞序列x 1 x 2 x t 然後 單詞x t 1 的概率分布 語言模型的另一種定義是給給定文字序列分配概率 這個概率代表了該文字序列出現的可能性大小 例如,給定一段文字x 1 x 2 x t 那麼這段文字出現的概率為 ...
CS224n學習筆記 Lecture1 2
開始的這部分主要是對dl4nlp的乙個簡介。個人理解,dl4nlp中,所有層級都是以向量的形式進行處理,用向量表示單詞 用向量表示句子等。向量是最靈活的形式,維度自由,可組成矩陣,可組成高維的tensor等。進行nlp等後續任務,首先需要輸入。輸入 主要有兩個,乙個是來自語音speech,乙個是來自...