輿情相似度計算

2021-06-20 20:58:17 字數 788 閱讀 5812

輿情相似度計算

輿情的屬性有以下:

domain 輿情發生領域

regions 輿情地域(可將全國劃分至5個區域,或十個以內)

opiniontype 輿情型別

mediatype 發布言論中各**類別所佔的比例

mediagrade 發布言論中各**類別所佔的比例

需要將前三個屬性轉換成數值型以便計算,以domain為例:

domain型別

編碼(xyz)

社會001

倫理010

教育100

這種編碼的好處是各個不同值之間的距離相等,相同值之間的距離為0.

如 社會與倫理的距離:2(按位相減,再取平方和);

社會與教育的距離:2

社會與社會的距離:0

輿情a示例:

屬性真實值

編碼值domain

倫理010

regions

東部沿海(廣東)

00001

opiniontype

社會事件

001mediatype

30%  20%  20%  (10%)

30%  20%  20%  (10%)

mediagrade

30%  50%  (20%)

30%  50%  (20%)

距離度量可表示為:

x為輿情a的屬性向量,y為輿情b的屬性向量

相似度計算

從多個維度分析兩組資料的相似度,比如大的文字使用word2vec轉成向量,類別根據最大的類別數量n拆成n維0或1表示的vector,數值型別歸一化之後表示乙個維度,然後根據cos l1 l2等方式計算相似度 可以用於推薦系統 協同過濾等演算法 注意double值的精度處理 將向量根據座標值,繪製到向...

相似度計算

author wepon blog machine learning in action 筆記,相似度計算,基於python numpy。假如我們希望相似度的值在0 1之間,並且越相似,值越大,有哪些辦法?1 計算歐式距離,然後根據 相似度 1 1 距離 計算相似度。2 皮爾遜相關係數,在numpy...

相似度計算之余弦相似度

一 定義及概念 余弦取值範圍為 1,1 求得兩個向量的夾角,並得出夾角對應的余弦值,此余弦值就可以用來表徵這兩個向量的相似性。夾角越小,趨近於0度,余弦值越接近於1,它們的方向更加吻合,則越相似。當兩個向量的方向完全相反夾角余弦取最小值 1。當余弦值為0時,兩向量正交,夾角為90度。因此可以看出,余...