一、冷啟動問題簡介
如何在沒有大量使用者資料的情況下設計個性化推薦系統並讓使用者對推薦結果滿意從而願意使用推薦系統,就是冷啟動問題。
1. 分類(3類):
二、利用使用者註冊資訊解決冷啟動問題
即利用年齡、性別等資料。推薦一些熱門商品(該方法粒度較粗)。如若是女性,則推薦女性都喜歡的商品。
使用者註冊資訊含3種:
1. 人口統計學資訊。如年齡、性別、職業、學歷等。這些特徵對**使用者的興趣有很重要的作用。代表系統是lifestyle finder。
實際應用中也可考慮組合特徵,如將年齡性別作為乙個特徵。不過在使用組合時需注意使用者不一定具有所有特徵(這是因為使用者不一定填寫所有資訊)。
核心問題是計算每種特徵的使用者喜歡的物品,即對於每種特徵f,計算具有這種特徵的使用者對各個物品的喜好程度p(f,i)。利用的使用者人口統計學特徵越多,越能準確**使用者興趣。
p(f,i)可簡單定義為物品i在具有f特徵的使用者中的熱門程度。這種方法會導致熱門物品會在各種特徵的使用者中均有較高的權重,不太符合個性化推薦的要求,很難用來給使用者推薦符合他們特徵的個性化物品。
改進:p(f,i)定義為喜歡物品i的使用者中具有特徵f的比例。引數a使用者解決資料稀疏問題,a值通常較大。如下:
2. 使用者興趣描述。
三、選擇合適的物品啟動使用者的興趣解決冷啟動
通過讓使用者對物品進行評分來收集使用者興趣。新使用者第一次訪問時,並不立即給使用者展示推薦結果,而是給使用者提供一些物品,讓使用者對其反饋,根據使用者反饋提供個性化推薦。
需解決的首要問題是如何選擇物品讓使用者進行反饋。需評分的物品應較熱門、有代表性和區分性、多樣性。
如何設計乙個選擇啟動物品集合的系統?用決策樹解決。根據使用者對某一物品的喜好程度分類,分為3類:喜歡、不喜歡、不知道。再在每類使用者中再找到最具區分度的物品。
四、利用物品的內容資訊解決冷啟動
usercf演算法對物品冷啟動問題並不非常敏感。需解決第一推動力問題,即第乙個使用者從哪兒發現新的物品。解決的方法可以考慮利用物品的內容資訊,將新物品先投放給曾喜歡過和它內容相似的其他物品的使用者(這不是和itemcf很相似麼?!)。
內容相似度計算簡單,能頻繁更新,且能解決物品冷啟動問題。內容過濾演算法contentitemknn在某些資料集上的準確率、召回率上效能較差,覆蓋率、流行度上效能稍好。很多時候內容過濾演算法的精度比協同過濾演算法差,但如果使用者的行為強烈受某一內容屬性的影響,那麼內容過濾演算法還是可以再精度上超過協同過濾演算法的。如果能將這兩種演算法融合,一定能獲得比單獨使用這兩種演算法更好的效果。向量空間模型在內容資料豐富時可獲得較好的效果。
可用lda計算物品的內容相似度,計算分布的相似度可利用kl散度。
五、發揮專家的作用
沒有使用者行為資料,也沒有充足的物品內容資訊準確的計算物品相似度,故利用專家進行標註。代表系統是pandora和jinni。在pandora中,採用全人工的方式,每首歌可表示為乙個400維的向量,然後用常見的向量相似度演算法計算歌曲的相似度。jinni採用半人工、半自動的方式,即專家(50個)和機器學習(影評)相結合的方式。
推薦系統 冷啟動問題
使用者冷啟動 即提供非個性化的推薦,即提供熱門排行榜,之後再個性化 使用者註冊資訊分3中 p f,i n i u f n i an i 是喜歡物品i的使用者集合,u f 是具有特徵f的使用者集合,引數a的目的是解決資料係數的問題。比如有乙個物品只被乙個使用者喜歡過,而這個使用者剛好就有特徵f,那麼p...
推薦系統 冷啟動問題
什麼是冷啟動?冷啟動問題的型別 主要分為三大類,使用者冷啟動,物品冷啟動和系統冷啟動。其實前兩者並不能想到,因為冷啟動問題說白了就是系統沒有使用者和物品的資料獲得根據做演算法推薦分析,所以使用者冷啟動和物品冷啟動是必然考慮。下面稍微的介紹一下者三大類 之前接觸過一些平台類似的解決這些冷啟動的方式,大...
推薦系統 冷啟動問題
冷啟動問題指的其實就是推薦系統如何給新增使用者推薦物品列表,以及當乙個新物品上架後,如何將該物品推薦給使用者?使用者的冷啟動 利用topn的熱門商品作為推薦列表 當使用者只要訪問乙個物品 對乙個物品產生偏好資訊後,我們就可以基於itemcf為該使用者產生推薦列表 收集一些使用者的資訊然後基於使用者特...