在7.9餘弦定理+空間向量--我的數學3
中簡單地說了一下利用餘弦定理來計算文字相似度。下面是利用餘弦定理和廣義jaccard係數來計算文字相似度。
簡單介紹一下jaccard係數:廣義jaccard係數可以用於文件資料,並在二元屬性情況下歸約為jaccard係數。廣義jaccard係數又稱tanimoto係數。(有另一種係數也稱為tanimoto係數)。該係數用ej表示,由下式定義:
ej(x,y)=(x*y)/(||x|*||x||+||y||*||y||-x*y)
其公式與余弦相似度的計算有點相似
clusterusingkmeans.rar
77.txt為原始文件,77.txt對比其他文件得到的相似度報告可以在 實驗報告.doc中檢視
如下所示
使用cos(
名詞和成語)使用
cos(
無限制)
使用jaccard (
名詞和成語)使用
jaccard (
無限制)
53.txt
0.75956909998699
0.695630243577844
0.560566883431663
0.4670868864554
57.txt
0.832549281197672
0.784451145860574
0.711498783220936
0.635179493763215
75.txt
0.723232861947749
0.705986655123678
0.515174136459287
0.494265265766382
94.txt
0.944456910179154
0.864040767357343
0.624237679218324
0.760073520562129
ps: 通過檢視文字的內容,可以發現五個文字之間都存在一定的相似。能得到文字的相似度之後,可以採用k-means等聚類演算法對文字資料進行聚類。
k-means的演算法過程可以通過網路得到。
文字相似度計算 餘弦定理和廣義Jaccard係數
在7.9餘弦定理 空間向量 我的數學3 中簡單地說了一下利用餘弦定理來計算文字相似度。下面是利用餘弦定理和廣義jaccard係數來計算文字相似度。簡單介紹一下jaccard係數 廣義jaccard係數可以用於文件資料,並在二元屬性情況下歸約為jaccard係數。廣義jaccard係數又稱tanimo...
使用餘弦定理計算文字相似度
文字相似度 學過向量代數的人都知道,向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那麼這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到餘弦定理計算向量的夾角了。餘弦定理對我們每個人都不陌生,它描述了三角形中任何乙個夾角和三個邊的關係,換句話說,給定三角形的三條邊...
文字相似度演算法 餘弦定理
最近由於工作專案,需要判斷兩個txt文字是否相似,於是開始在網上找資料研究,因為在程式中會把文字轉換成string再做比較,所以最開始找到了這篇關於 距離編輯演算法 blog寫的非常好,受益匪淺。於是我決定把它用到專案中,來判斷兩個文字的相似度。但後來實際操作發現有一些問題 直接說就是查詢一本書中的...