相似文章推薦:在使用者閱讀某篇文章時,為使用者推薦更多的與在讀文章內容相類似的文章
指介紹好的人或事物,希望被任用或接受。資料探勘領域,推薦包括相似推薦和協同過濾推薦。
相似推薦(similar recommended):
指利用已有使用者群過去的行為或意見,**當前使用者最可能喜歡哪些東西或對哪些東西感興趣
余弦相似度(cosine similarity):用向量空間中兩個向量夾角的余弦值作為衡量兩個個體見差異的大小。余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這個特徵叫做余弦相似性。
素材:文章a、文章b
#對兩篇文章進行分詞, 得到 [a] 、 [b] 兩個分詞列表
#根據分詞結果構建分詞語料庫,得到 [c] = [a] | [b]
#根據語料庫分別統計a、b的詞頻(向量化,需要嚴格按照分詞語料庫單詞的順序)
#計算余弦值
具體實現:在構建語料庫/中文分詞/文件向量化之後
#計算余弦相似度
from sklearn.metrics import
pairwise_distances
#計算每行之間的距離,得到距離矩陣
distance_matrix = pairwise_distances(textvector,metric='
cosine')
#排序得到距離第2-6名的矩陣元素
sort = np.argsort(distance_matrix,axis=1)[:,1:6]
similar5 =pd.index(filepath)[sort].values
#得到相似度前5的文章路徑資料框
similardf =pd.dataframe()
資料探勘 推薦系統
個性化推薦是根據使用者的興趣特點和購買行為,向使用者推薦使用者感興趣的資訊和商品。為什麼要個性化推薦?商品個數和種類快速增長,顧客需要花費大量的時間才能找到自己想買的商品 瀏覽大量無關的資訊和產品,資訊過載問題,使用者難以獲取所需要的資訊 為每個item抽取出一些特徵來表示此item 結構化屬性如身...
資料探勘 相似項的發現
與問題角度不同 把物體看成乙個整體比如 距離 余弦等等。現在把物體拆分,就可以用集合去考慮相似度。比如jaccard相似度。定義集合s和集合t的jaccard相似度為 s t s t 現在我們把目標放在文件上面,如何將文件拆分呢?引入shingle k shingle 文件看做字串,k的意思是任意個...
mysql文章相似度計算 文章相似度計算
文章內容相似度計算幾種方式及優缺點 php 內建方法 similar text similar text 是php內建的字串相似度對比函式,是使用方式最便捷的一種,但是因為它的時間複雜度是 o n 3 處理時間會隨著內容長度增加,若比較5000字以上的文章,或者比較文章的量級比較大不建議使用,只是單...