詞向量與句向量概述

比較常見的詞向量表示方式：glove、fasttext、wordrank、tfidf-bow、word2vec

詞向量一般看作是文件特徵，不同詞向量有不同用法，主要有四類詞向量：1.hash演算法及衍生；2.bow演算法延伸；3.word2vec延伸；4.lda主題延伸

乙個詞一列向量-----> hash演算法--->word2vec(考慮上下文語境)

乙個詞乙個向量----->bow演算法-->lda(考慮語言多義)

一詞一列向量hash將詞打散成(01010101110)的數值。word2vec在打散的同時定義向量，還考慮了單詞上下文語義，doc2vec額外考慮上下語句順序(單詞在段落中順序)，用在段落中比較好

乙個詞乙個值(bow演算法+詞權重，lda主題-詞語矩陣)兩者遞進，lda運算耗時，業界用的較少

1.如果是一詞一列向量，一般用簡單相加(相加被證明是最科學)求得句向量

2.如果一詞乙個向量，就用詞權重組合成句向量方式

3.谷歌句向量sen2vec直接將句子變成列向量

句向量：對於短語或句子，將組成單詞對應的所有詞向量加起來，作為短語向量、句向量

消除歧義：lda主題模型-詞句向量

結合上下文語境：word2vec

文件與文件間關係：bow+tfidf

一般來說，hash值效果稍微差一點，其他三類均不錯

文字分類：bow+tfidf(tfidf能較好區分不同文件)，word2vec，lda主題-詞語向量(潛在語義發現)

文字相似性：word2vec(結合上下文語境，短文本效果良好)、lda主題-詞語向量(文件語義挖掘)

文字主題建模：lda模型

BERT 輸出句向量，字元向量

有什麼區別？bert輸出的句向量是什麼樣的？output layer model.get sequence output 這個獲取每個token的output 輸出 batch size,seq length,embedding size 如果做seq2seq 或者ner 用這個 output la...

詞向量如何評價詞向量的好壞

詞向量詞嵌入或者稱為詞的分布式表示，區別於以往的獨熱表示，已經成為自然語言任務中的乙個重要工具，對於詞向量並沒有直接的方法可以評價其質量，下面介紹幾種間接的方法。對於詞向量的評價更多還是應該考慮對實際任務的收益，脫離的實際任務很難確定a模型就一定比b好，畢竟詞向量方法更多是一種工具。學生上課 0...

構建詞向量（單向量版）

為了節省記憶體，詞向量的結果進行了惰性計算，返回的是乙個記憶體位址如果想要使用，請list展開共計三個結果，原順序詞向量，單詞標籤，以及乙個排序結果 import re import numpy as np import matplotlib.pyplot as plt import scip...

詞向量與句向量概述

BERT 輸出 句向量，字元向量

詞向量 如何評價詞向量的好壞

構建詞向量（單向量版）

相關推薦

BERT 輸出句向量，字元向量

詞向量如何評價詞向量的好壞