聚類演算法概述1 相似性度量

2021-08-17 05:35:04 字數 352 閱讀 9506

一 聚類中的相似性度量:

以下方法適用於直接對raw data進行相似性的度量,或者對比提取features之後的dada的相似性。

1:距離

1)lr norm距離:

如果是l1 norm,那就是絕對值/曼哈頓距離(manhattan distance),d(i,j)=|xi-xj|+|yi-yj|。

如果是l2 norm,那就是著名的歐式距離(euclidean distance)了,應用最廣泛。 如果

,supremum距離,計算兩個向量相差最大的維度的距離。

2) 馬氏距離:mahalanobis距離:

結合pca的推導來看,特別是協方差矩陣即x*trans(x)

聚類演算法概述

聚類是乙個把資料物件集劃分成多個組或者簇的過程,使得簇內的物件具有很高的相似性,但與其他簇中的物件很不相似 聚類是無監督學習,不依賴於預定義的類和類標號的訓練例項。我們常見的聚類演算法分為以下幾類 劃分方法 層次方法 基於密度的方法和基於網格的方法。給定n個物件的集合,劃分方法構建資料的k個劃分,每...

google怎麼做 2 相似網頁演算法

google 的相似網頁功能演算法 中科院軟體所 張俊林 time stamp 2006年4月3日 我們使用 google 在檢索結果列表裡面每個檢索結果會有 相似網頁 similar pages 的鏈結,主要提供和所列出的頁面相似的網頁 那麼這個功能是如何實現的 利用鏈結分析來提供相關網頁的功能 ...

google怎麼做 2 相似網頁演算法

我們使用 google 在檢索結果列表裡面每個檢索結果會有 相似網頁 similar pages 的鏈結,主要提供和所列出的頁面相似的網頁 那麼這個功能是如何實現的 google 其基本思路是 如果乙個頁面和另外乙個頁面相似 那麼其鏈結關係也是相似的 其演算法如下 1 使用者選定某個頁面 a,希望檢...