句子相似度比較的歸一化

2022-06-17 11:12:13 字數 444 閱讀 5895

我們將不同長度的句子(預處理並分詞之後的長度)直接做比較其實是不公平的,舉個例子:

sentence 1 =  長度為2

sentence 2 = 長度為1

sentence 3 = 長度為3

(在取相似詞top4,exp=0.7,的情況下)

即便sent2與sent1詞的組成完全不同,base_similarity=0.2513

同樣的,sent3與sent1完全不同,       base_similarity=0.2063

長度長的詞本身就處於劣勢,所以我考慮在相似度的基礎上,減去base_similarity,並加上乙個常數(純粹為了好看,不然我其實應該使用正態分佈作歸一化,這個後續做)

此外,exp取0.6是我在分析近義詞的時候得到的,講道理我應該統計得到top1 top2 top3...的平均值或者中位數,這個也後續做把。。。先用經驗值替代

用sklearn比較句子或詞的相似度

用bert模型對句子或詞進行向量化,然後用sklearn比較其相似度 coding utf 8 from bert serving.client import bertclient from sklearn.metrics.pairwise import cosine similarity 先命令列...

word2vec全部彈幕比較句子相似度情感五分類

usr bin python coding utf 8 importsys importcodecs 可以以特定編碼開啟檔案 importjieba importjieba.possegaspseg reload sys zzh說這種方法不好,不要再用了!可是真的很好用啊 qaq delmodel ...

資料歸一化和相似性

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...