聚類演算法概述1 相似性度量

一聚類中的相似性度量：

以下方法適用於直接對raw data進行相似性的度量，或者對比提取features之後的dada的相似性。

1：距離

1）lr norm距離：

如果是l1 norm，那就是絕對值/曼哈頓距離（manhattan distance），d（i，j）=|xi-xj|+|yi-yj|。

如果是l2 norm，那就是著名的歐式距離（euclidean distance）了，應用最廣泛。如果

，supremum距離，計算兩個向量相差最大的維度的距離。

2）馬氏距離：mahalanobis距離：

結合pca的推導來看，特別是協方差矩陣即x*trans(x）

聚類是乙個把資料物件集劃分成多個組或者簇的過程，使得簇內的物件具有很高的相似性，但與其他簇中的物件很不相似聚類是無監督學習，不依賴於預定義的類和類標號的訓練例項。我們常見的聚類演算法分為以下幾類劃分方法層次方法基於密度的方法和基於網格的方法。給定n個物件的集合，劃分方法構建資料的k個劃分，每...

google 的相似網頁功能演算法中科院軟體所張俊林 time stamp 2006年4月3日我們使用 google 在檢索結果列表裡面每個檢索結果會有相似網頁 similar pages 的鏈結,主要提供和所列出的頁面相似的網頁那麼這個功能是如何實現的利用鏈結分析來提供相關網頁的功能 ...

我們使用 google 在檢索結果列表裡面每個檢索結果會有相似網頁 similar pages 的鏈結,主要提供和所列出的頁面相似的網頁那麼這個功能是如何實現的 google 其基本思路是如果乙個頁面和另外乙個頁面相似那麼其鏈結關係也是相似的其演算法如下 1 使用者選定某個頁面 a,希望檢...