與問題角度不同
。把物體看成乙個整體比如:距離/余弦等等。現在把物體拆分,就可以用集合去考慮相似度。比如jaccard相似度。
定義集合s和集合t的jaccard相似度為:|s∩t|/|s∪t|
現在我們把目標放在文件上面,如何將文件拆分呢?引入shingle
k-shingle:文件看做字串,k的意思是任意個長度為k的字串。eg.字串abcdabd的2-shingle組成的集合為
注意任意兩個字。
好,現在因為對於乙個文字來說,k-shingle集合真的非常大,所以引入minhashing技術。
理解:就是乙個隨機取樣
資料探勘 相似文章推薦
相似文章推薦 在使用者閱讀某篇文章時,為使用者推薦更多的與在讀文章內容相類似的文章 指介紹好的人或事物,希望被任用或接受。資料探勘領域,推薦包括相似推薦和協同過濾推薦。相似推薦 similar recommended 指利用已有使用者群過去的行為或意見,當前使用者最可能喜歡哪些東西或對哪些東西感興趣...
新的大資料的知識發現和資料探勘
來自如谷歌和雅虎這樣的公司的頂尖的科學家,和高階學者們一起齊聚在本週在聖地牙哥舉行的第17次計算機械協會 acm 的知識發現和資料探勘 kdd 會議上。他們將要展示從當下產生的鋪天蓋地的資料中尋找洞察力的最新技術,並使各種各樣形式的資訊變得比以往任何時候都更有意義。二十年前,關心所謂的 大資料 的人...
初學資料探勘 相似性度量 二
根據相似性從高到底排序。def topmatchs prefs,person,n 5,similarity sim pearson scores similarity prefs,person,other other for other in prefs if other person scores...