1、余弦相似度(cosine)
公式:
即:以向量的夾角為考量角度,以向量的內積(各對應元素相乘求和)比兩個向量的模的積為計算結果。
即:基本上考慮的是點的空間距離,各對應元素做差取平方求和後開方。
3、曼哈頓距離(manhattan distance
)公式:d(i,j)=|x1-x2|+|y1-y2|.
即:向量各對應座標間做差求絕對值後求和。
曼哈頓距離的由來是在規劃為方形建築區塊的城市(曼哈頓)內,計算最短的行車路徑。從某一地點到另一地點,必須走固定的n個區塊,沒有其它捷徑。為了便於理解,如下:
4、皮爾遜相關係數(pc:pearson correlation coefficient
)公式:
即:上面所提到的調整的余弦相似度,向量內各對應元素減去均值求積後求和,記為結果1;各對應元素減去均值平方求和再求積,記為結果2;結果1比結果2.
針對線性相關情況,可用於比較因變數和自變數間相關性如何。
公式:
即:和上述類似,不同的是將對於樣本中的原始資料xi,yi轉換成等級資料xi,yi,即xi等級和yi等級。並非考慮原始資料值,而是按照一定方式(通常按照大小)對資料進行排名,取資料的不同排名結果代入公式。
實際上,可通過簡單的方式進行計算,n表示樣本容量,di表示兩向量x和y內對應元素的等級的差值,等級di = xi - yi,則:
例如( 維基百科):ixi
每週花在電視上的小時數, yiyi
等級xi
等級yi
didi2860
1100
972026
-416
992838
-525
1002747
-3910150510
-525
1032969
-39106773
4161101785
39112692
74911312104
6366、傑卡德相似係數(jaccard距離)
公式:
即:用來衡量兩個集合差異性的乙個指標,交集除以並集,向量(文字)相似度用共同出現的元素(詞語、短語等特徵)除以兩者的總量。
7、simhash+漢明距離
(hamming distance)
simhash:谷歌發明,根據文字轉為64位的位元組,計算漢明距離判斷相似性。
漢明距離:在資訊理論中,兩個等
長字串的漢明距離是兩者間對應位置的不同字元的個數。換句話說,它就是將乙個字串變換成另外乙個字串所需要替換的字元個數。例如:
「10110110」和「10011111」的漢明距離為3;
「abcde」和「adcaf」的漢明距離為3.
8、等......(待你補充
文字相似度計算 編輯距離
一 概念 編輯距離 編輯距離,又稱levenshtein距離,是指兩個字串之間,由乙個轉成另乙個所需的最少編輯操作次數。許可的編輯操作包括將乙個字元替換成另乙個字元,插入乙個字元,刪除乙個字元。如 將sailn一字轉成failing sailn failn s f 插入,刪除 sailn faili...
文字相似度的計算
文字相似度的計算方法有很多,這裡簡單記錄一下 傳統的vsm模型 計算文字相似度的時候主要是使用tfidf來協助生成文件向量 整個文件集合有多少詞,就是多少維度 每個文件中的詞用tfidf來生成權重,用權重來表示文件的向量 生成向量後,就可以計算相似度了,用夾角余弦 當然這裡詞的權重的生成方式還有很多...
計算文字相似度
計算文字相似度 推薦2收藏 簡單講解 文字相似度計算在資訊檢索 資料探勘 機器翻譯 文件複製檢測等領域有著廣泛的應用。比如 控制,我們假設你開發了乙個微博 並且已經把世界上罵人的句子都已經收錄進了資料庫,那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較,如果符合裡面的句子就不讓使用者發出。通常...