假設向量1為(a1,a2,...an)
向量2為(b1,b2,...bn)
1、歐式距離測度
公式為
d=sqrt((a1-b1)^2+(a2-b2)^2+…+(an-bn)^2)
mahout類為euclideandistancemeasure
2、平方歐式距離測度
公式為
d=(a1-b1)^2+(a2-b2)^2+…+(an-bn)^2
mahout類為squaredeuclideandistancemeasure
3、曼哈頓距離測度
公式為
d=|a1-b1|+|a2-b2|+…+|an-bn|
mahout類為manhattandistancemeasure
4、余弦距離測度(將向量看成幾何中向量,兩個向量的余弦夾角,即為它們的距離)
公式為d=1-(a1b1+a2b2+…+anbn)/(sqrt(a1^2+a2^2+…+an^2)*sqrt(b1^2+b2^2+…+bn^2))
注意:這種距離測度不考慮兩個向量的長度,只關注從原點到這兩個點的方向。距離測度範圍為(0.0到2.0)
mahout類為cosinedistancemeasure
5、谷本距離測度
余弦距離測度忽略向量長度,在某些情況下不適應,而谷本距離測度既會考慮向量長度,也會考慮向量夾角
公式為:
d=1-(a1b1+a2b2+…+anbn)/(sqrt(a1^2+a2^2+…+an^2)*sqrt(b1^2+b2^2+…+bn^2)-(a1b1+a2b2+…+anbn))
mahout類為tanimotodistancemeasure
6、加權距離測度
此種測度可以修改某一維度的權重,比如在x-y座標系中希望x方向的影響力加倍,就可以設定該維度權重為2。
mahout類為weighteddistancemeasure。
Mahout 中 kmeans的引數
distancemeasure measure 資料點間的距離計算方法,引數可缺,預設是 squaredeuclidean 算方法 提供引數值 chebyshevdistancemeasure 切比雪夫距離 cosinedistancemeasure 余弦距離 euclideandistanceme...
mahout中的kmeans簡單例項
在mahout in action這本書中,有個kmeans的簡單例項,可書中只給了源 而並沒有指出要匯入哪些包才能正確執行 這本書在內容開始提到書中所有 都是基於mahout0.4版本的,可是我發現這個kmeans的例子,卻是基於mahout0.3的,有幾個函式0.4版中是沒有的 我不知道是不是因...
mahout中bayes分類分析 2
2 模型 以上訓練部分的四個job 執行完畢後,整個 bayes 模型就建立完畢了,總共生成並儲存三個目錄檔案 trainer tfidf trainer weights trainer thetanormalizer 我們可以將模型從分布式上sequence 檔案導成本地的 txt 檔案進行檢視。...