doc2vec 文件向量

2021-10-14 06:48:30 字數 1008 閱讀 1879

3 doc2vec 總結

4 應用任務

doc2vec 模型的目的:建立文件向量表示

doc2vec 的整體思想:在word2vec的基礎上增加了可訓練句子的矩陣

doc2vec 是無監督學習

模型出自**: distributed representations of sentences and documents

模型實現(兩種方法):

pv-dm + softmax

pv-dbow + softmax

訓練階段:給出一組文件,為每個單詞生成詞向量w,並為每個文件生成文件向量d,訓練 softmax 隱藏層的權重。

**階段:固定 softmax 等權重以計算文件向量,隨機初始化文件向量,不斷迭代更新文件向量,所有引數均不變,訓練使用時間少

在cbow基礎上,增加 paragraph vector表示文件的向量d,在d中取矩陣中的一列作為輸入層的輸入,在詞向量w中取一列,將段落向量和詞向量進行運算得到 x 向量,用 x 向量來**詞

在skip-gram基礎上,利用句子向量**詞,該演算法實際上更快,並且消耗更少的記憶體,因為不需要儲存詞向量

doc2vec 是在word2vec的基礎上進行了修改,在輸入層上增加了paragraph vector,不僅能訓練出詞向量還能訓練出句子向量,咋子迭代更新的過程中,句子向量不斷的穩定,更能代表一句話的主旨。在**新句子時,引數不變,用梯度下降求得句子向量,速度也非常快

通過學出來的向量可以通過計算距離來找 sentences/paragraphs/documents 之間的相似性, 或者進一步可以給文件打標籤

文中應用任務:

情感分析

資訊檢索

文字特徵提取 Doc2Vec

利用詞袋模型從文字中抽取特徵的主要步驟 countvectorizer類實現了上述步驟中的 tokenzing 和 counting from sklearn.feature extraction.text import countvectorizer corpus this is the firs...

Doc2vec的原理以及實戰demo

一,原理 其訓練原理與word2vec很相似。主要的不同如下 每次從一句話中滑動取樣固定長度的詞,取其中乙個詞作為 詞,其他詞作為輸入。在輸入層,增添了乙個新句子向量paragraph vector,paragraph vector可以被看作是另乙個詞向量,它扮演了乙個記憶,每次訓練滑動擷取句子中一...

word2vec 過程理解 詞向量的獲取

網上有很多這方面的資源,詳細各位都能夠對於word2vec了解了大概,這裡只講講個人的理解,目的 通過對於乙個神經網路的訓練,得到每個詞對應的乙個向量表達 基於 這個神經網路,是基於語言模型,即給定t個詞的字串s,計算s是自然語言的概率p w1,w2,wt 而構建的,更直白點,就是通過輸入wi的上下...