mahout中得距離測度

2021-06-27 05:08:26 字數 1047 閱讀 6334

假設向量1為(a1,a2,...an)

向量2為(b1,b2,...bn)

1、歐式距離測度

公式為

d=sqrt((a1-b1)^2+(a2-b2)^2+…+(an-bn)^2)

mahout類為euclideandistancemeasure

2、平方歐式距離測度

公式為

d=(a1-b1)^2+(a2-b2)^2+…+(an-bn)^2

mahout類為squaredeuclideandistancemeasure

3、曼哈頓距離測度

公式為

d=|a1-b1|+|a2-b2|+…+|an-bn|

mahout類為manhattandistancemeasure

4、余弦距離測度(將向量看成幾何中向量,兩個向量的余弦夾角,即為它們的距離)

公式為d=1-(a1b1+a2b2+…+anbn)/(sqrt(a1^2+a2^2+…+an^2)*sqrt(b1^2+b2^2+…+bn^2))

注意:這種距離測度不考慮兩個向量的長度,只關注從原點到這兩個點的方向。距離測度範圍為(0.0到2.0)

mahout類為cosinedistancemeasure

5、谷本距離測度

余弦距離測度忽略向量長度,在某些情況下不適應,而谷本距離測度既會考慮向量長度,也會考慮向量夾角

公式為:

d=1-(a1b1+a2b2+…+anbn)/(sqrt(a1^2+a2^2+…+an^2)*sqrt(b1^2+b2^2+…+bn^2)-(a1b1+a2b2+…+anbn))

mahout類為tanimotodistancemeasure

6、加權距離測度

此種測度可以修改某一維度的權重,比如在x-y座標系中希望x方向的影響力加倍,就可以設定該維度權重為2。

mahout類為weighteddistancemeasure。

Mahout 中 kmeans的引數

distancemeasure measure 資料點間的距離計算方法,引數可缺,預設是 squaredeuclidean 算方法 提供引數值 chebyshevdistancemeasure 切比雪夫距離 cosinedistancemeasure 余弦距離 euclideandistanceme...

mahout中的kmeans簡單例項

在mahout in action這本書中,有個kmeans的簡單例項,可書中只給了源 而並沒有指出要匯入哪些包才能正確執行 這本書在內容開始提到書中所有 都是基於mahout0.4版本的,可是我發現這個kmeans的例子,卻是基於mahout0.3的,有幾個函式0.4版中是沒有的 我不知道是不是因...

mahout中bayes分類分析 2

2 模型 以上訓練部分的四個job 執行完畢後,整個 bayes 模型就建立完畢了,總共生成並儲存三個目錄檔案 trainer tfidf trainer weights trainer thetanormalizer 我們可以將模型從分布式上sequence 檔案導成本地的 txt 檔案進行檢視。...