本文是對**a ****** but tough-to-beat baseline for sentence embeddings中演算法的簡要描述,具體細節請參考**實現。
1.對乙個句子中所有詞的詞向量進行加權平均,每個詞向量的權重可以表示為aa
+p(w
) ,其中
a 為引數,p(
w)為詞w
的頻率。
2.使用pca/svd對向量值進行修改。
演算法具體描述如下:
演算法輸入:
1. 詞向量vw
:w∈v
,w表示詞典中
w中的乙個詞。該向量可以使用glove/word2vec/psl等詞向量。
2. 句子集合
s 。
3. 引數a。
4. 詞頻p(
w):w
∈v,p(w
) 表示詞
w 出現的頻率。
演算法輸出:句子s
的向量表示vs
:s∈s
。演算法細節以及**實現參考github。
a ****** but tough-to-beat baseline for sentence embeddings
載入GloVe模型和Word2Vec模型
1 google用word2vec預訓練了300維的新聞語料的詞向量googlenews vecctors negative300.bin,解壓後3.39個g。可以用gensim載入進來,但是需要記憶體足夠大。載入google訓練的詞向量 import gensim model gensim.mod...
Word2Vec教程 Skip Gram模型
這個教程包含 訓練word2vec的 skip gram 模型。通過這個教程,我希望跳過常規word2vec 的介紹和抽象理解,而是去討論一些細節。特別是skip gram的網路結構。skipgram model 常常讓人驚訝於它的簡單結構。我認為基本沒啥彎路,或者需要複雜的模型解釋。讓我們從高層語...
小小word2vec模型訓練
嗨,好久不見啊!今天我們來完成乙個word2vec模型訓練,學習筆記有挺多人寫的,不瞞您說,小白也是看別人的部落格學習的。所以這次,小白就直接上手例項啦,一起嘛?首先介紹一下模型引數 通過jieba分詞 import jieba import pandas as pd 把文字檔案讀進來,再分詞,去停...