知乎:
第一種方法:
基本思路是盡可能找到還原語義的pre-trained embedding。步驟是:
1.原始詞有沒有2.全小寫有沒有3.全大寫有沒有4.首字母大寫有沒有5.三種次乾化有沒有6.長得最像的幾種編輯方法有沒有依次瀑布式查詢。當然,最好的方式,是使用subword level的pre-trained language model,生成此oov的contextual的特徵。
第二種方法:
用unk標籤表示所有未登入詞,但是unk的embedding一般不會用零向量。
新增乙個unk標記,作為未登入詞。
unk詞向量隨機初始化,但是在訓練集裡面沒有unk,怎麼訓練它呢?那就在訓練的時候根據詞頻 f(w) ,當f(w) > 2時,採用 z / (z + f(w)) 的概率把詞隨機變為unk就行了, z 通常設為 0.8375 。
第三種方法:
加unk詞,oov的詞都assign到這上面,這是通常做法。而且有太多unk words說不定是你資料處理有問題,試試normalize一下。
Word Embedding 知識總結
一 word embedding的基本概念 二 word embedding的型別 word embedding也是有流派的,主流有以下兩種 1 基於頻率的word embedding frequency based embedding 2 基於 的word embedding prediction...
理解詞嵌入WordEmbedding
詞嵌入,英文為 word embedding,這是語言表示的一種方式。它可以讓演算法理解一些類似的詞。我們可以用one hot向量來表示詞,如下圖所示。這種表示方式,我們需要首先獲取乙個字典,比如字典中有100000個詞。對每乙個詞,都得到乙個向量,其中該詞對應位置上置一,其他位置置零。比如man這...
什麼是詞嵌入(word embedding)
整理自知乎 embedding在數學上表示乙個maping,f x y,也就是乙個function。其中該函式是 那麼對於word embedding,就是將單詞word對映到另外乙個空間,其中這個對映具有injective和structure preserving的特點。通俗的翻譯可以認為是單詞嵌...