unk技巧 在訓練word2vec之前,預留乙個符號,把所有stopwords或者低頻詞都替換成unk,之後使用的時候,也要保留乙份詞表,對於不在word2vec詞表內的詞先替換為unk。
subword技巧 這個技巧出自fasttext,簡而言之就是對oov詞進行分詞,分詞之後再查詢,找到的就保留,找不到的繼續分詞,直到最後分到字級別,肯定是可以找到的對應字向量的。
bpe技巧bpe(byte pair encoder),位元組對編碼,也可以叫做digram coding雙字母組合編碼。bpe首先把乙個完整的句子分割為單個的字元,頻率最高的相連字元對合併以後加入到詞表中,直到達到目標詞表大小。對測試句子採用相同的subword分割方式。bpe分割的優勢是它可以較好的平衡詞表大小和需要用於句子編碼的token數量。bpe的缺點在於,它不能提供多種分割的概率。此外還有很多技巧啦,如word2vec的增量學習,這裡就不贅述了。
用隨機值或者0進行代替
**:word2vec缺少單詞怎麼辦?
與word2vec 原來word2vec那麼簡單
說到word2vec,它可謂非結構化資料裡面的佼佼者,尤其是在推薦和nlp當中,足以體現它的優勢所在,並且多年一直備受工業界喜愛.那麼word2vec到底是怎麼個原理的,發現身邊總是有很多人問,確不能準確的說出為什麼是兩個矩陣,到底是怎麼自動反向傳播的,以及對於softmax之後那麼大的維度資料,是...
word2vec學習參考
最近看nlp的東西比較多。就拿現在google 基於神經網路做的 word2vec 作為部落格的開始吧,今後會陸陸續續補充內容。基本是分4塊內容 1.神經網路語言模型 2.語言模型分層優化 3.word2vec 原理 4.google word2vec 看一點寫一點,先扔些參考資料鏈接上去。附上在研...
Word2Vec知識總結
word2vec是乙個產生詞向量的模型,是乙個雙層的神經網路 非常善於找出詞彙的相似度,同時可用於處理之前的技術 像one hot編碼和wordnet 處理不了的語義關係。它可以利用神經網路從大量的無標註的文字中提取有用資訊。我們也可以將它看成是乙個工具,它裡面包含了三種重要的模型 1 nnlm 神...