*****的演算法:
p(u, i) = (對b求和)n(u, b) * n(b, i)
其中,n(u,b)是使用者u打過標籤b的次數,n(b, i)是物品i被打過標籤b的次數。得到使用者u喜歡物品i的可能性。
下邊逐個分析其缺點,並一步步改進。
改進演算法:
1.借鑑tf-idf,懲罰熱門標籤、標籤指向的熱門物品。即在上面公式的基礎上,兩個n分別除以 log(1+ n(b))、log(1 + n(i)), 其各自含義分別為:該標籤被多少個使用者打過、該物品被多少個使用者打過標籤。
2.新使用者或者新物品,標籤較少(稀疏)。此時可以考慮把他標註的標籤的「同義詞」也引過來當作使用者打過的標籤。稱之為「標籤擴充套件」。而獲取這個同義詞的方法一般有兩種:1)獲取語義,話題模型;2)計算標籤的相似度,並維護乙個標籤的相似度矩陣。
簡要介紹2),如果認為同乙個物品的兩個標籤具有相似性,那麼當兩個標籤a、b經常出現在同乙個物品的標註資訊中時,我們認為a、b是高度相似的。余弦公式計算之即可。
3、標籤清理。
主要清理以下3種標籤:
1)詞頻很高的 「停止詞」;
2)詞根不同的同義詞:如 recommender system 和 recommendation system;
3)分隔符不同的同義詞:如collaborative_filter 和 collaborative filter
學習與總結
私有構造方法的類,不可被繼承.1.靜態工廠方法取代構造方法,組合取代繼承.優點 有名稱,不用每次呼叫建立乙個物件,可以返回原型別的子型別,引數型別例項更簡潔 2.n個必選引數 多個可選構造引數存在的情況下 建議使用 構造器模式 一般情況使用重疊構造器模式,但是可選引數超過4個就比較繁瑣 重疊構造如下...
OpenCV 學習與總結
opencv 學習與總結 opencv,計算兩幅影象的單應矩陣 摘要 平面射影變換是關於其次3維向量的一種線性變換,可以使用乙個非奇異的 3 times 3 矩陣h表示,x hx 射影變換也叫做單應 homography 計算出兩幅影象之間的單應矩陣h,那麼應用這個關係可以將乙個檢視中的所有點變換到...
CSS Hack 學習與總結
最近工作寫css比較多,寫完之後發現問題很多,尤其是瀏覽器相容問題,現將學到的和一些總結的寫下來。1 什麼是css cascading style sheets 層疊樣式表 的簡稱.一種標記語言,它不需要編譯,可以直接由瀏覽器解釋執行 屬於瀏覽器解釋型語言 在標準網頁設計中負責網頁內容的表現.例如 ...