one-hot原理:
import jieba
import numpy as np
from collections import counter
stopwords =
[line.
strip()
for line in
open
('../data/stopwords.data'
,'r'
, encoding=
'utf-8').
readlines()
]sentence1 =
'小明喜歡看電影小紅喜歡聽歌'
sentence2 =
'小張喜歡打籃球'
相似度計算:
#余弦相似度
sum_fz =
0distance_cos =
0sum_vec1 =
0sum_vec2 =
0sum_fm =
0for i in
range
(len
(vec1)):
sum_fz +
= vec1[i]
* vec2[i]
sum_fm +
= math.
sqrt
(math.
pow(vec1[i],2
))+ math.
sqrt
(math.
pow(vec2[i],2
))distance_cos = sum_fz / sum_fm
print
('余弦值:'
, distance_cos) # 余弦值
print
('角度值'
, math.
acos
(distance_cos)
) # 角度值
NLP系列文章(三) 文字向量的表示方法
雖然one hot和tf idf的表示方式也成為詞向量,但是我們這裡討論的基於詞向量的表示方式是圍繞分布式詞表徵進行的。也就是利用word2vec glove和fasttext等詞向量對文字進行表示,詞向量可以根據任務或者資源的不同隨意選擇,文字表示的方法是通用的。首先我們根據語料庫訓練詞向量,也就...
5文字溢位
文字溢位 overflow visible 預設值 hidden 超出隱藏 scroll 顯示滾動條 auto 自適應檢視 inherit 繼承父元素overflow值文字換行 white space normal 預設值 pre 原格式輸出,空白會被瀏覽器保留 pre wrap 文字不會換行,文字...
336 文字壓縮
中文english 給你乙個只含有可見字元 ascii 碼範圍 3232 至 126126 文字檔案,檔案中可能出現一些重複的單詞,你需要對它們進行壓縮。壓縮規則如下 如果原檔案中的字元不是英文本元,那麼保留這些字元。我們將連續的英文本元視為乙個單詞,單詞的前後不應該還有其它的英文本元。輸入 ple...