相似性和想異性是重要的概念,被許多資料探勘技術所使用:聚類、最近鄰分類、異常檢測等
在許多情況下,一旦計算出相似性或相異性,就不再需要原始資料了
這種方法可以看做將資料變換到相似性(相異性)空間,然後進行分析
鄰近度(proximity)----相關、歐幾里得距離、jaccard距離、余弦相似性
(稠密資料、二維點)(文件 稀疏資料)
1、相似度【0,1】
1)簡單屬性
2)資料物件
距離:閔可夫斯基距離:
r=1城市街區距離(l1範數)
r=2歐幾里得距離(l2範數)
r=無窮 lmax距離
特性:非負性、對稱性、三角不等式()通常不成立
[1]二元資料的相似性度量 jaccard相似性係數
余弦相似度 文件用向量表示,向量的每個屬性代表乙個特定的詞在文件中出現的頻率
廣義jaccard函式
相關性 corr(x,y) 物件屬性之間線性聯絡的度量
第二章 相似性和相異性度量 資料 資料預處理
資料型別 定量 定性 屬性是物件的性質 特徵,測量標度是將數值或符號值與物件的屬性相關聯的規則 函式 屬性型別 屬性的性質不必與用來度量他的值的性質相同 屬性的不同 相異性 序 加法 乘法 四種屬性型別 標稱和序數 分類的 定性的 區間和比率 數值的 定量的 非對稱屬性 如果屬性值具有相同的權重,則...
相似性度量
二元向量的相似性度量 每一維都少的資訊量,主要是0,1等有 or 沒有屬性 dice 2 x y x y 2保證 0,1 維數不一致時,差別大。jaccard x y x y 交疊程度小時,值較低 交疊係數 x y min 互相之間的包含性,1 cosine x y 根號 x y 對於實值 只有co...
相似性度量
一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0 距離要非負 3.對稱性,d x,y d y,x 如果a到b距離是a,那麼b到a的距離也應該是a 4.三角形法則 兩個之和大於第三邊 d x,k d k,y d x,y 滿足這4個條件...