推薦系統資料稀疏性問題

2022-05-06 02:39:10 字數 484 閱讀 6093

讓我們看看為什麼效果比較差。在u-i矩陣中,使用者平均瀏覽的商品數量比較小,根據周濤的估計,平均每個使用者的瀏覽寶貝數量不超過800。實際上,平均每個使用者的商品瀏覽數量可能不超過20.那麼在u-i矩陣中,只有6000萬×20的entry是有值的,稀疏的度達到 20/8億=2.5e-08,小於百萬分之一。在這個規模下,任意兩個使用者的瀏覽的商品交集都是比較小的。

在**平台,不同於amazon或者豆瓣,同樣的物品(商品)有很多賣家都可以**。如果使用者瀏覽了同種商品的乙個,其實我們可以認為他瀏覽了所有類似的商品。也就是說我們想通過商品的聚類,為了減少資料量,擴大使用者的共同瀏覽量。商品聚類有很多方法,在比較規範的手機數碼聚類簡單一些,然後在****等類目聚類更複雜。因為**可能從風格等角度去聚類更簡單一些。

還有乙個角度是減少使用者量,那麼對於相似的使用者可以聚類。不管用什麼聚類方法,當面對數千萬使用者和數億商品的時候,計算量是乙個比較大的挑戰。如何減少不必要的技術,在盡可能短的時間內得到計算結果是非常重要。

參考:

推薦系統資料稀疏性問題

推薦系統資料稀疏性問題 讓我們看看為什麼效果比較差。在u i矩陣中,使用者平均瀏覽的商品數量比較小,根據周濤的估計,平均每個使用者的瀏覽寶貝數量不超過800。實際上,平均每個使用者的商品瀏覽數量可能不超過20.那麼在u i矩陣中,只有6000萬 20的entry是有值的,稀疏的度達到 20 8億 2...

推薦系統問題總結

參考 冷啟動問題 定義 在開始階段,沒有大量使用者資料的情況下,進行個性化推薦的問題。分類使用者冷啟動 對新使用者進行推薦 a1.利用新使用者的註冊資訊進行推薦 2.匯入使用者社交 資訊 a3.要求使用者對一些物品進行反饋 物品冷啟動 將新物品推薦給使用者 b1.利用物品的內容資訊進行推薦 系統冷啟...

推薦系統 04 推薦系統冷啟動問題

看完了尚矽谷機器學習和推薦系統專案實戰教程,又覺得基礎部分學的太散了。沒有把大體的體系學好。因此,找來了 項亮的推薦系統實踐一書。打算把知識體系梳理一遍。從前面我們知道了,基於協同過濾的推薦系統是根據使用者歷史行為和興趣 使用者未來可能的行為和興趣,所以推薦系統是在大量使用者資料的基礎上,才能構建的...