一 聚類中的相似性度量:
以下方法適用於直接對raw data進行相似性的度量,或者對比提取features之後的dada的相似性。
1:距離
1)lr norm距離:
如果是l1 norm,那就是絕對值/曼哈頓距離(manhattan distance),d(i,j)=|xi-xj|+|yi-yj|。
如果是l2 norm,那就是著名的歐式距離(euclidean distance)了,應用最廣泛。 如果
,supremum距離,計算兩個向量相差最大的維度的距離。
2) 馬氏距離:mahalanobis距離:
結合pca的推導來看,特別是協方差矩陣即x*trans(x)
聚類演算法概述
聚類是乙個把資料物件集劃分成多個組或者簇的過程,使得簇內的物件具有很高的相似性,但與其他簇中的物件很不相似 聚類是無監督學習,不依賴於預定義的類和類標號的訓練例項。我們常見的聚類演算法分為以下幾類 劃分方法 層次方法 基於密度的方法和基於網格的方法。給定n個物件的集合,劃分方法構建資料的k個劃分,每...
google怎麼做 2 相似網頁演算法
google 的相似網頁功能演算法 中科院軟體所 張俊林 time stamp 2006年4月3日 我們使用 google 在檢索結果列表裡面每個檢索結果會有 相似網頁 similar pages 的鏈結,主要提供和所列出的頁面相似的網頁 那麼這個功能是如何實現的 利用鏈結分析來提供相關網頁的功能 ...
google怎麼做 2 相似網頁演算法
我們使用 google 在檢索結果列表裡面每個檢索結果會有 相似網頁 similar pages 的鏈結,主要提供和所列出的頁面相似的網頁 那麼這個功能是如何實現的 google 其基本思路是 如果乙個頁面和另外乙個頁面相似 那麼其鏈結關係也是相似的 其演算法如下 1 使用者選定某個頁面 a,希望檢...