冷啟動問題的研究意義
目前針對冷啟動問題提出了一些解決方法,如隨機推薦法、平均值法、眾數法、資訊熵法、相似度度量改進法結合內容資訊的方法等。不同的演算法有各自的優點和不足,充分認識各演算法的效能特徵,掌握其適用的特定環境,便於研究者發現不同演算法的改進點,明確演算法的研究方向。更重要的是便於推薦系統對演算法的選擇和應用。而目前,大多數研究者熱衷於提出新的演算法,而對演算法的研究現狀的分析和比較不夠。為彌補這一不足,本文重點對解決冷啟動問題的不同演算法進行分析比較,明確演算法各自的優缺點,為讀者提供有益的借鑑。
冷啟動問題的研究現狀
目前針對冷啟動問題提出了一些解決方法,主要分為兩大方面,一是直接利用傳統協同過濾的評分資料結合特定的方法進行解決,二是新使用者或新專案的內容屬性資訊與傳統的協同過濾評分資料相結合的方法進行改善冷啟動問題。
不考慮內容的解決方法
隨機推薦的方法
對於冷啟動問題,實際應用中最簡單最直觀的方法是採用隨機推薦的方式,對於新使用者,系統隨機地給他們推薦專案; 對於新專案,系統將它們和現有專案一起隨機地推薦給使用者,然後根據他們的反饋,不斷修正使用者對被推薦的專案的評價來了解新使用者的興趣偏好和新專案被哪些使用者群體所喜好。但是這種方法是比較冒險的方式,效果並不理想。因為從長期來看,隨機推薦的方法的準確率不會超過 50%,而一旦使用者得到系統推薦的專案不符合他們的興趣偏好,他們會失去對推薦系統的信任而棄之不用。
平均值法
平均值法也是一種非常簡單的方法,該方法選取所有專案的均值,作為使用者對未評價過專案的**值,將原始評分矩陣進行填充,然後在填充後的評分矩陣上尋找目標使用者的最近鄰居,應用協同過濾的方法產生推薦。但是均值的方法只能說是一種被動應付的方式,新使用者對專案的喜好值正好等於其他使用者對此專案的平均值的概率是非常小的,同樣,使用者對新專案的評價,不可能永遠是單一的均值,而是有著個人的喜好在裡面,應該是以平均喜好為軸,個人的實際興趣喜好圍繞此軸上下波動的一種**模式。簡單的均值法抹殺了這種個體差異。
眾數法眾數法是指採用使用者對所有評價過的專案的評分個數最多的那個值作為對未評價專案的**評分值。眾數是集中量的一種體現,指一組資料中出現頻數最多的那個數。採用眾數法的依據是使用者對某一項目的喜好大都有從眾心理,使用者一般比較喜歡大多數人都喜歡的東西,同樣,使用者對專案進行評分,一般也具有集中性,使用者可能會對比較喜好的專案都打 5 分,而對不太喜好的專案都打 1 分。眾數法是同平均值方法相似的一種方法,用多數替代少數,用眾性替代個性。實際上,使用者對未評價過的專案或者新專案的**,並不是一概而論的,例如有些使用者有比較強的個性,其興趣愛好和大多數人差距較大。採用眾數法,只能說從統計學的角度而言,**準確的概
率高於不準確的概率。如果**的專案恰巧是使用者喜歡的,而評價過的該項目的使用者不喜歡的占多數,並且打為 l 分,那麼**的專案被評為 l,這種**就不僅不是近似的**,而是錯誤的**。
相似度度量改進法
相似度度量改進法是通過改進傳統協同過濾推薦演算法中的相似度度量標準實現的,傳統的相似度度量是在評分矩陣上通過計算兩個向量的幾何距離或與一條直線的逼近程度進行確定的,如果兩個使用者共同評分的個數較少,相似度的計算就不夠準確,很難找出相似的使用者。針對此問題,文獻[15]對相似度的概念進行了新的定義,在計算相似度時,打破傳統的計算幾何距離的觀念,採取啟發式策略,在計算相似度時,考慮評分行為意義的影響因素。對於評分資訊,首先設定乙個中間值作為參考值,如果兩者的評分在參考值的同側,則依據評分資訊給予相應的獎勵,如果位於兩側,則給予乙個懲罰,獎勵和懲罰機制根據評分值的差值而定,這些獎勵和懲罰措施就使行為相近的更接近,行為差距比較大的距離進一步加大,並且對評分個數的依賴會減小。但是這種方法只能解決評分個數不足的情況,對於沒有評分的冷啟動問題卻無能為力。
結合內容資訊的解決方法
基於原始評分矩陣擴充的方法
文獻[16]提出了原始評分矩陣擴充的方法,該演算法的基本思想是直接將使用者的人口統計資訊和專案的內容特徵資訊新增到原始使用者-專案評分矩陣增加的行和列中,這樣評分矩陣的行和列有所增加,矩陣得以擴充。協同過濾推薦演算法在擴充後的矩陣上進行實施,這樣即使使用者專案的評分資訊為零,其內容資訊也是存在的,因此可以繼續計算相似鄰居,產生推薦。此演算法能同時對新使用者和新專案問題有所改善,但是對於超高維的資料,內容特徵資訊的維數相對使用者數量和專案數量可謂「冰山一角」,用少數的內容資訊並不能有效描述使用者和專案的興趣概況,所以此方法在處理高維資料的推薦系統中並不能有效解決冷啟動問題。
構建概率統計模型的方法
協同過濾概率模型中將使用者、專案和評分初始化為相應概率分布,利用 hofmann 的 em 迭代演算法求解使用者在評分給定的情況下某專案出現的概率,然後將概率從大到小排序,將概率大於某個值或排在前 n項的專案推薦給使用者
。對於冷啟動問題,使用者-專案的評分資訊不足,文獻[25]和文獻[26]將使用者或專案的內容資訊初始化為乙個指定的概率分布,代替協同過濾推薦中評分概率分布,然後在內容資訊替代評分資訊的概率分布上利用 hofmann 的 em 迭代演算法[24],從而完成推薦。概率模型方法能很大程度地解決冷啟動問題,實驗結果證實了該方法可以有效地解決冷啟動問題。但是該方法在蒐集概率條件資訊時要花費很大的代價,並且要經過大量的迭代計算
才能產生推薦,所以投入實際應用較少。
與機器學習相結合的方法
此方法的基本思想是利用使用者或專案的內容資訊,通過機器學習查詢內容和評分的內在聯絡,採取相應的措施產生推薦,該方法是目前解決冷啟動問題研究的方向性方法。文獻[26]利用感知機學習使用者和專案之間的關係從而解決冷啟動問題,文獻[20]通過注入有限數目的「智慧型體」模擬學習新使用者和新專案的興趣概況資訊從而對新使用者和新專案給予適當的**評分。文獻[28]利用使用者的內容屬性資訊通過無監督的 k-means 聚類學習演算法將使用者分成不同的興趣組,每一組中使用者的興趣偏好相似的可能性比較大,那麼系統在查詢使用者之間的距離時將所聚類中的使用者之間的距離作為乙個影響因素考慮進去。實驗結果證明了該演算法可以在一定程度上解決冷啟動問題。但是此演算法對影響因素的比例選取沒有充分的數學依據,只能適用於特定的資料集。
推薦系統中冷啟動問題
前言 推薦系統需要根據使用者的歷史行為和興趣來 使用者未來的行為和興趣,因此大量的使用者行為資料就稱為了推薦系統的重要組成部門和先決條件。但是,很多個性化推薦系統的 從開始就沒有這些使用者行為資料,所以如何在沒有大量使用者行為資料的情況下進行個性化推薦並且讓使用者對推薦的結果感到滿意,這就是冷啟動問...
推薦系統 冷啟動問題
使用者冷啟動 即提供非個性化的推薦,即提供熱門排行榜,之後再個性化 使用者註冊資訊分3中 p f,i n i u f n i an i 是喜歡物品i的使用者集合,u f 是具有特徵f的使用者集合,引數a的目的是解決資料係數的問題。比如有乙個物品只被乙個使用者喜歡過,而這個使用者剛好就有特徵f,那麼p...
推薦系統冷啟動問題
一 冷啟動問題簡介 如何在沒有大量使用者資料的情況下設計個性化推薦系統並讓使用者對推薦結果滿意從而願意使用推薦系統,就是冷啟動問題。1.分類 3類 二 利用使用者註冊資訊解決冷啟動問題 即利用年齡 性別等資料。推薦一些熱門商品 該方法粒度較粗 如若是女性,則推薦女性都喜歡的商品。使用者註冊資訊含3種...