面向語義關係的word2vec

2021-08-01 23:41:17 字數 1148 閱讀 1685

文獻:hashimoto k, stenetorp p, miwa m, et al. task-oriented learning of word embeddings for semantic relation classification[j]. arxiv preprint arxiv:1503.00095, 2015.

對於位於矩陣中的名詞對n=

(n1,

n2) ,具有三個方面的資訊:n1

之前的詞wb

ef,n

1 與n2

之間的詞wi

n ,n2

之後的詞wa

ft, 其中,

通過對這三個方面的資訊進行連線與均值操作,進而構造用以**詞wi

ni的特徵向量如下(f∈

r2d(

2+c)

×|w|

):進而有如下形式logistic**模型:其中w

~(w)

為權重向量,b(

w)為偏置,w~

∈r2d

(2+c

)×|w

| 的每一列對應乙個詞向量。在利用無標籤資料訓練**模型時,若直接採用窮舉法,則會導致prohibitive的計算代價,由於|w

| 是乙個非常大的數。如何辦?

負取樣(negative sampling):運用unigram雜訊分布隨機取樣k個與wi

ni相比較的詞w′

j , 在此基礎上嵌入表示學習可通過最大化如下目標函式來實現:

對於句子中的名詞對(n

1,n2

) , 其特徵主要包括:自身特徵gn

, 中間詞特徵gi

n 與外部詞特徵go

ut.

則樣本k的特徵向量可記為ek

=[gn

;gin

;gou

t]l類的有監督學習的實質就是最大化如下概率:p(

lk|e

k)=exp(o

(lk)

)∑li

=1exp(o(

i)) , 其中o=

s⋅ek

+s,

s 與

s為softmax引數,o(

i)是o∈r

l×1 的第

i 個分量.

進而有如下目標函式:

與word2vec 原來word2vec那麼簡單

說到word2vec,它可謂非結構化資料裡面的佼佼者,尤其是在推薦和nlp當中,足以體現它的優勢所在,並且多年一直備受工業界喜愛.那麼word2vec到底是怎麼個原理的,發現身邊總是有很多人問,確不能準確的說出為什麼是兩個矩陣,到底是怎麼自動反向傳播的,以及對於softmax之後那麼大的維度資料,是...

word2vec學習參考

最近看nlp的東西比較多。就拿現在google 基於神經網路做的 word2vec 作為部落格的開始吧,今後會陸陸續續補充內容。基本是分4塊內容 1.神經網路語言模型 2.語言模型分層優化 3.word2vec 原理 4.google word2vec 看一點寫一點,先扔些參考資料鏈接上去。附上在研...

Word2Vec知識總結

word2vec是乙個產生詞向量的模型,是乙個雙層的神經網路 非常善於找出詞彙的相似度,同時可用於處理之前的技術 像one hot編碼和wordnet 處理不了的語義關係。它可以利用神經網路從大量的無標註的文字中提取有用資訊。我們也可以將它看成是乙個工具,它裡面包含了三種重要的模型 1 nnlm 神...