Word Embedding 知識總結

2021-09-18 06:01:04 字數 608 閱讀 2324

一 word embedding的基本概念

二 word embedding的型別

word embedding也是有流派的,主流有以下兩種:

(1)基於頻率的word embedding(frequency based embedding)

(2)基於**的word embedding(prediction based embedding)

三 word embedding的應用

現今流行的word embedding演算法攜帶了語義資訊且維度經過壓縮便於運算,因此有了很多用武之地,例如:

在一組單詞中找出與眾不同的乙個,例如在如下詞彙列表中:[dog, cat, chicken, boy],利用詞向量可以識別出boy和其他三個詞不是一類;

直接進行詞的運算,例如經典的:woman+king-man =queen;

由於攜帶了語義資訊,還可以計算一段文字出現的可能性,也就是說,這段文字是否通順。

本質上來說,經過word embedding之後,各個word就組合成了乙個相對低維空間上的一組向量,這些向量之間的遠近關係則由他們之間的語義關係決定。

理解詞嵌入WordEmbedding

詞嵌入,英文為 word embedding,這是語言表示的一種方式。它可以讓演算法理解一些類似的詞。我們可以用one hot向量來表示詞,如下圖所示。這種表示方式,我們需要首先獲取乙個字典,比如字典中有100000個詞。對每乙個詞,都得到乙個向量,其中該詞對應位置上置一,其他位置置零。比如man這...

什麼是詞嵌入(word embedding)

整理自知乎 embedding在數學上表示乙個maping,f x y,也就是乙個function。其中該函式是 那麼對於word embedding,就是將單詞word對映到另外乙個空間,其中這個對映具有injective和structure preserving的特點。通俗的翻譯可以認為是單詞嵌...

word embedding怎麼處理未登入詞

知乎 第一種方法 基本思路是盡可能找到還原語義的pre trained embedding。步驟是 1.原始詞有沒有2.全小寫有沒有3.全大寫有沒有4.首字母大寫有沒有5.三種次乾化有沒有6.長得最像的幾種編輯方法有沒有依次瀑布式查詢。當然,最好的方式,是使用subword level的pre tr...