輿情相似度計算
輿情的屬性有以下:
domain 輿情發生領域
regions 輿情地域(可將全國劃分至5個區域,或十個以內)
opiniontype 輿情型別
mediatype 發布言論中各**類別所佔的比例
mediagrade 發布言論中各**類別所佔的比例
需要將前三個屬性轉換成數值型以便計算,以domain為例:
domain型別
編碼(xyz)
社會001
倫理010
教育100
這種編碼的好處是各個不同值之間的距離相等,相同值之間的距離為0.
如 社會與倫理的距離:2(按位相減,再取平方和);
社會與教育的距離:2
社會與社會的距離:0
輿情a示例:
屬性真實值
編碼值domain
倫理010
regions
東部沿海(廣東)
00001
opiniontype
社會事件
001mediatype
30% 20% 20% (10%)
30% 20% 20% (10%)
mediagrade
30% 50% (20%)
30% 50% (20%)
距離度量可表示為:
x為輿情a的屬性向量,y為輿情b的屬性向量
相似度計算
從多個維度分析兩組資料的相似度,比如大的文字使用word2vec轉成向量,類別根據最大的類別數量n拆成n維0或1表示的vector,數值型別歸一化之後表示乙個維度,然後根據cos l1 l2等方式計算相似度 可以用於推薦系統 協同過濾等演算法 注意double值的精度處理 將向量根據座標值,繪製到向...
相似度計算
author wepon blog machine learning in action 筆記,相似度計算,基於python numpy。假如我們希望相似度的值在0 1之間,並且越相似,值越大,有哪些辦法?1 計算歐式距離,然後根據 相似度 1 1 距離 計算相似度。2 皮爾遜相關係數,在numpy...
相似度計算之余弦相似度
一 定義及概念 余弦取值範圍為 1,1 求得兩個向量的夾角,並得出夾角對應的余弦值,此余弦值就可以用來表徵這兩個向量的相似性。夾角越小,趨近於0度,余弦值越接近於1,它們的方向更加吻合,則越相似。當兩個向量的方向完全相反夾角余弦取最小值 1。當余弦值為0時,兩向量正交,夾角為90度。因此可以看出,余...