mahout中得距離測度

假設向量1為（a1,a2,...an)

向量2為（b1,b2,...bn)

1、歐式距離測度

公式為

d=sqrt((a1-b1)^2+(a2-b2)^2+…+(an-bn)^2)

mahout類為euclideandistancemeasure

2、平方歐式距離測度

公式為

d=(a1-b1)^2+(a2-b2)^2+…+(an-bn)^2

mahout類為squaredeuclideandistancemeasure

3、曼哈頓距離測度

公式為

d=|a1-b1|+|a2-b2|+…+|an-bn|

mahout類為manhattandistancemeasure

4、余弦距離測度（將向量看成幾何中向量，兩個向量的余弦夾角，即為它們的距離）

公式為d=1-(a1b1+a2b2+…+anbn)/(sqrt(a1^2+a2^2+…+an^2)*sqrt(b1^2+b2^2+…+bn^2))

注意：這種距離測度不考慮兩個向量的長度，只關注從原點到這兩個點的方向。距離測度範圍為（0.0到2.0）

mahout類為cosinedistancemeasure

5、谷本距離測度

余弦距離測度忽略向量長度，在某些情況下不適應，而谷本距離測度既會考慮向量長度，也會考慮向量夾角

公式為：

d=1-(a1b1+a2b2+…+anbn)/(sqrt(a1^2+a2^2+…+an^2)*sqrt(b1^2+b2^2+…+bn^2)-(a1b1+a2b2+…+anbn))

mahout類為tanimotodistancemeasure

6、加權距離測度

此種測度可以修改某一維度的權重，比如在x-y座標系中希望x方向的影響力加倍，就可以設定該維度權重為2。

mahout類為weighteddistancemeasure。

Mahout 中 kmeans的引數

distancemeasure measure 資料點間的距離計算方法，引數可缺，預設是 squaredeuclidean 算方法提供引數值 chebyshevdistancemeasure 切比雪夫距離 cosinedistancemeasure 余弦距離 euclideandistanceme...

mahout中的kmeans簡單例項

在mahout in action這本書中，有個kmeans的簡單例項，可書中只給了源而並沒有指出要匯入哪些包才能正確執行這本書在內容開始提到書中所有都是基於mahout0.4版本的，可是我發現這個kmeans的例子，卻是基於mahout0.3的，有幾個函式0.4版中是沒有的我不知道是不是因...

mahout中bayes分類分析 2

2 模型以上訓練部分的四個job 執行完畢後，整個 bayes 模型就建立完畢了，總共生成並儲存三個目錄檔案 trainer tfidf trainer weights trainer thetanormalizer 我們可以將模型從分布式上sequence 檔案導成本地的 txt 檔案進行檢視。...

mahout中得距離測度

Mahout 中 kmeans的引數

mahout中的kmeans簡單例項

mahout中bayes分類分析 2

相關推薦