二、subword model
三、subword-level language model
四、hybrid nwt
五、character-level
因為人類書寫系統多種多樣,同時詞語存在形態變換,音譯,縮寫以及網路用語等現象,所以僅在word level進行建模是不夠的,需要model blow word,即對組成詞語的詞素、音素等基本單元進行建模,從而獲得詞語的形態特徵和語音、音韻特徵。(儘管傳統研究不認為詞素、音素具備語義資訊)
《neural machine translation of rare words with subword units》(acl2016)中採用一種稱之為「byte pair encoding」的方法來實現subword model,詳見cs224n課件lecture12。
word piece是指在word內部進行分詞,然後借助於n-gram 語言模型生成char序列的embedding,即subword,然後根據subword embeding來獲得對應word的embedding。代表模型是google nwt v1。
bert模型中也使用了word piece的方法。在bert中,對於常用詞,採用word embedding;而對於未登入詞,則採用word piece的方法來得到相應的embedding。
sentence piece model則是將空格視為一種特殊的符號「_」,然後直接對raw text進行分詞。代表模型是google nwt v2。
subword-level language model 希望通過多語言的大量語料來訓練出乙個有效的語言模型(因為不同語言在書寫形式上具有較大的差異,所以word-level 語言模型都是基於某種特定語言的語料來進行訓練的)。其優勢在於:
該模型通過highway network來連線不同粒度的詞向量。其實驗結果證明了cnn+highway network可以獲取豐富的語義和結構資訊。
subword model的另一種思路是在模型中採用word-level與character-level的混合詞向量,例如google 的hybrid nwt。(achieving open vocabulary neural machine translation with hybrid word-character models. acl 2016.)
hybrid nwt採用encoder+decoder的結構:
從結果來看,word-level model會出現邊界對齊錯誤,複製錯誤;char-level會出現翻譯錯誤;hybrid可以有效避免這些錯誤。
與word-level mode相比,char-level model的優勢在於
CS224n 詞向量模型和GloVe
語言學家j.r.firth提出,通過乙個單詞的上下文可以得到它的意思,所以我們可以定義乙個以 某個單詞的上下文的模型 p context wt 我們的目標當然是希望概率p越大越好,所以我們可以定義乙個目標函式 j t 1t m j m,j 0p wt j wt 我們的目的就是最大化上面這個目標函式。...
CS224N 語言模型介紹
語言模型實現 語言模型是指根據給定序列 下乙個單詞的任務,其形式化表達為 給定單詞序列x 1 x 2 x t 然後 單詞x t 1 的概率分布 語言模型的另一種定義是給給定文字序列分配概率 這個概率代表了該文字序列出現的可能性大小 例如,給定一段文字x 1 x 2 x t 那麼這段文字出現的概率為 ...
CS224n筆記一 開端
自然語言處理的目標是讓計算機處理或者 理解 自然語言,以完成有意義的任務,如qa等。形態學 morphological analysis 或稱詞法或者詞彙形態學。其研究詞的內部結構,包括屈折變化和構詞法兩個部分。句法分析 syntactic analysis 和語義分析 semantic inter...