主要思想:向顧客 \(x\) 推薦與之前被 \(x\) 高度評價的商品相似的商品
步驟item presentation
為每個item抽取出一些特徵來表示此item(item profile)
文字挖掘常用啟發式方法: \(tf-idf\)
profile learning(典型的監督分類問題)
利用乙個使用者過去喜歡 / 不喜歡的item的特徵資料,來學習出此使用者的喜好特徵(user profile)
recommendation generation
\(tf-idf\) (term frequency * inverse doc frequency)詞頻-逆文件頻率
\[tf-idf score: w_ = tf_ \times idf_i
\]\(i\) :feature;\(j\) :item;\(n\) :total number of docs
\[tf_ = \frac}}
\]逆文件頻率idf:總檔案數 / (包含該給定詞的文件化數+1),再取對數(idf越大,表明詞條類別區分能力好)
\[idf_i = log}
\]profile的可能性
**profile \(x\) 和item特徵集合 \(i\) 的相關度:\(u(x, i) = cos(x, i) = \frac\)
pros vs. cons
優點:缺點:
主要思想:對於使用者 \(x\),找到\(n\)個與 \(x\) 有相似評價的使用者,基於這\(n\)個使用者的評價估計 \(x\) 的評價
找相似使用者
對於使用者 \(x\),其評價向量為 \(r_x\)
從相似度到推薦
\(r_x\) :使用者\(x\)的評價;\(n\) :\(k\)個評價過item \(i\)的最相似使用者;\(s_ = sim(x, y)\):\(x\)和\(y\)的相似度
\(r_ = \frac\sum_r_\) ,\(x\)對\(i\)的評價,即\(y\)個使用者對\(i\)評價的均值
\(r_ = \fracs_·r_}s_}\) ,即\(y\)和\(x\)的相似度越高,其評價權重越大
\(\cdots\),還有很多種其他的**選擇。
item-item 協同過濾
對於item \(i\),找到其他相似的item,基於其他相似item的評分估算user \(x\) 對item \(i\)的評分
\[r_ = \fracs_·r_}s_}
\]其中\(n\)是與\(i\)相似的被\(x\)評價過的item集合。
在實踐中,對偏差進行建模,得到更好的估計:
\[r_ = b_ + \fracs_·(r_-b_)}s_}
\]其中\(b_ = \mu + b_x + b_i\),即baseline estimate for \(r_\),\(\mu\)為所有評分平均值,\(b_x\)為user評分偏差,\(b_i\)為item評分偏差。
user-user 系統過濾
同上在實際中,item-item比user-user表現更好,因為item的簡單的,user有不同的口味
pros vs. cons
優點:缺點:
混合方法評價
用ground truth作為test data set,看恢復精度如何
0/1模型
**錯誤
沒有關注到的點:
實際上,我們只關心評價高的。
複雜度 / 效能
找到最相似的k個使用者花費巨大:\(o\|x\|\)(可以預先計算)
處理手段:
提示下節講
推薦系統(1) 推薦系統概述
推薦系統是主動從大量資訊中找到使用者可能感興趣的資訊的工具。推薦系統的核心問題是如何實現推薦個性化 如何向使用者推薦匹配度高的產品 商品 或專案,本質是通過一定的方式將使用者和專案聯絡起來。自從xerox palo alto研究中心於1992年研發出了基於協同過濾的實驗系統tapestry以來 主要...
推薦系統1
1 基於內容的推薦方法 基於內容的指推薦方法將會把與使用者過去曾經使用過或者喜歡的產品相似的產品推薦給使用者。這是出於同一使用者的歷史資料來推薦產品。2 協同過濾的推薦方法 協同過濾推薦方法將會把與使用者的喜好相類似的其他使用者曾經使用或者喜歡的產品推薦給使用者,是根據使用者間的相似度來推薦產品。3...
推薦系統(1)
電影 愛情劇情 科幻戰爭 中國日本 南韓美國黑豹0 1110 001霍位元人01 0100 01從你的全世界路過11 0010 00復仇者聯盟401 1100 01其中0代表不屬於標籤特徵,1代表屬於標籤特徵 假設現有使用者a,使用者a喜歡物品c,則基於內容的推薦系統演算法會將與物品c相似的物品推薦...