構建詞向量（單向量版）

為了節省記憶體，詞向量的結果進行了惰性計算，返回的是乙個記憶體位址

如果想要使用，請list展開

共計三個結果，原順序:詞向量，單詞標籤，以及乙個排序結果

import re
import numpy as np
import matplotlib.pyplot as plt
import scipy
import jieba
import collections
words =
'''def
delsymbols
(strings,symbles=
':,."](>)):
srcrep =
rep =
dict
((re.escape(k)
, v)
for k, v in srcrep.items())
pattern = re.
compile
("|"
.join(rep.keys())
)return pattern.sub(
lambda m: rep[re.escape(m.group(0)
)], strings)
defget_word_vector
(words)
:    src_count_words = collections.counter(words)
sorted_words =
sorted
(src_count_words.items(
), key=
lambda x:
-x[1])
sorted_words,sorted_numbers=
zip(
*sorted_words)
sorted_words_in_map =
counter_vector_machine =
(src_count_words[i]
for i in src_count_words)
counter_words_machine =
(i for i in src_count_words)
return counter_vector_machine,counter_words_machine,
((word,count)
for word,count in
zip(sorted_words,sorted_numbers)
)## 呼叫
clearning = delsymbols(words,
':,."](>)
)split_words =
list
(jieba.cut(clearning, cut_all=
true))
result = get_word_vector(split_words)
## 解包
counter_vector_machine,counter_words_machine,sortresult = result
## 展開list型別結果（原文順序不變）
[list
(i)for i in result[:2
]]## 展開原文詞計數list（由大到小排序）
list
(sortresult)

詞向量如何評價詞向量的好壞

詞向量詞嵌入或者稱為詞的分布式表示，區別於以往的獨熱表示，已經成為自然語言任務中的乙個重要工具，對於詞向量並沒有直接的方法可以評價其質量，下面介紹幾種間接的方法。對於詞向量的評價更多還是應該考慮對實際任務的收益，脫離的實際任務很難確定a模型就一定比b好，畢竟詞向量方法更多是一種工具。學生上課 0...

詞向量與句向量概述

比較常見的詞向量表示方式 glove fasttext wordrank tfidf bow word2vec 詞向量一般看作是文件特徵，不同詞向量有不同用法，主要有四類詞向量 1.hash演算法及衍生 2.bow演算法延伸 3.word2vec延伸 4.lda主題延伸乙個詞一列向量 hash演算...

詞向量簡介

1.什麼是詞向量？每乙個詞典裡面存著一堆單詞，例如用nn.embedding模組進行詞嵌入輸出的就是對應的詞向量。2.什麼是 nn.embedding torch.nn.embedding理解看這個解釋 3.如何訓練乙個詞向量？skip gram 模型雖然這個任務並沒有什麼卵用，但它可以幫...

構建詞向量（單向量版）

詞向量 如何評價詞向量的好壞

詞向量與句向量概述

詞向量簡介

相關推薦

詞向量如何評價詞向量的好壞