協同過濾I2I的簡單實現

基於物品的協同過濾是目前業界應用最多的演算法。

可以通過下面公式定義物品的相似度：

w i,

j=∣n

(i)∩

n(j)

∣∣n(

i)∣∣

n(j)

∣w_=\frac}

wi,j=

∣n(i

)∣∣n

(j)∣

∣n(

i)∩n

(j)∣

這裡，分母∣n(

i)∩n

(j)∣

|n(i) \cap n(j)|

∣n(i)∩

n(j)

∣是同時喜歡物品i和物品j的的使用者數。為了減輕熱門物品的影響，除以∣n(

i)∣∣

n(j)

∣\sqrt

∣n(i)∣

∣n(j

)∣，懲罰了被很多使用者喜歡的熱門商品。

x和yy

y的笛卡爾積（cartesian product），又稱直積，表示為x×y

x×yx×

y，第乙個物件是x

xx的成員而第二個物件是y

yy的所有可能有序對的其中乙個成員。

假設集合a=，集合b=，則兩個集合的笛卡爾積為。

笛卡爾乘積在sql中通過join來實現。

是衡量兩個集合相似度的演算法，用兩個集合的交集元素的個數佔並集元素個數的比例來表示。

j (x

,y)=

∣x∩y

∣∣x∪

y∣

j(x,y)=\frac

j(x,y)

=∣x∪

y∣∣x

∩y∣

集合可以用布林向量表示，所以當向量為布林值時，計算向量相似度可以使用jaccard距離。

大概在3年前我有一段時間一直在思考頻繁項集挖掘和cf的本質區別是什麼，包括還在乙個會上問過周濤，他當時給我的說法是頻繁項集挖掘演算法複雜度太高了，一般實際中很少應用，效果可能會稍好。現在讓我來看沒有本質區別，因為本質都是挖掘item的co-occurence，包括各種proximity的計算方式，全集的二跳節點是相同的(而二跳節點有幾萬個），不同的是top-k。swing和其他傳統方法最大的區別就是除了co-occurence，它考慮了網路本身的外延結構。頻繁項集挖掘除了apriori，還有pfp-growth，但是計算量仍然龐大，資料集小可以嘗試。

協同過濾I2I的簡單實現

協同過濾的簡單實現

簡單的python協同過濾程式

Python實現基於使用者的協同過濾推薦

協同過濾I2I的簡單實現

協同過濾的簡單實現

簡單的python協同過濾程式

Python實現基於使用者的協同過濾推薦

相關推薦