電影
愛情劇情
科幻戰爭
中國日本
南韓美國黑豹0
1110
001霍位元人01
0100
01從你的全世界路過11
0010
00復仇者聯盟401
1100
01其中0代表不屬於標籤特徵,1代表屬於標籤特徵
假設現有使用者a,使用者a喜歡物品c,則基於內容的推薦系統演算法會將與物品c相似的物品推薦給使用者a,打個比方說:使用者a喜歡電影《黑豹》,而這部電影在資料庫中所賦予的標籤為《科幻》《美國》《漫威》,則該推薦系統則會將近期發布的電影《復仇者聯盟4》,因為這兩部電影在資料庫中的標籤相似度很大,所以說該系統會認為既然使用者a喜歡前者,理所當然也應喜歡後者。
在此,我將基於內容的推薦系統主要步驟分為4個步驟:
1----特徵的提取: 提取出待推薦物品的的屬性特徵,例如上面所提到的電影標籤(《種類》,《國家》,《出版公司》),我在下乙個章節中會詳細介紹提取屬性特徵的方法。
2----使用者偏好的計算:利用乙個使用者過去的顯式評分或者隱式操作記錄,計算使用者在不同特徵上的偏好分數。計算偏好分數的方法,可以直接使用統計特徵,即計算使用者在不同標籤下的分數,例如上文中的例子,使用者對電影《黑豹》的篇好分數可以計算為:$[0.3,0.5,0.6,0.3,0.4,0.1,0.4,0.2]*[0,1,1,1,0,0,0,1]^t =1.6 $其中前乙個矩陣代表各類屬性在分類時的比重大小,而通過計算各個電影的偏好分數,選擇相距較小的電影作為候選電影,另外我想說的一點是,在某些推薦的場景下,對時間比較敏感,使用者的興趣遷移比較快,在計算偏好的分的時候會增加時間因子.
3—內容的召回:將待推薦物品的特徵與使用者偏好的分匹配,取出使用者最有可能喜歡的物品池。
4—物品的排序: 按使用者喜歡的物品池,可能物品池中會有很多的item。這時候我們需要對其進一步進行排序,例如與電影《黑豹》偏好分數相近的有《復仇者聯盟4》與《霍位元人》,但是霍位元人在某些電影評分**中的評分低於復仇者聯盟(個人覺得不太可能),所以就推薦前者。
推薦系統中的特徵總體而言可以分為兩大類:
1,結構化的特徵:指的是可以按照固定格式表示的屬性特徵,例如上文中的電影的特徵表示(用矩陣[0,1,1,1,0,0,0,1])
2,非結構化的特徵:相反,指的是不能按照固定格式表示的屬性特徵,最常見的資料就是文章,例如對推薦系統文章,我們往往會把文字上的非結構化特徵轉化結構化特徵,然後加入到模型中使用。最常見的就是基礎統計法,詞頻統計法(tf-idf)
接下來的文章中我會簡要介紹一些基礎統計法與詞頻統計法與其他的一些推薦系統的演算法。
推薦系統(1) 推薦系統概述
推薦系統是主動從大量資訊中找到使用者可能感興趣的資訊的工具。推薦系統的核心問題是如何實現推薦個性化 如何向使用者推薦匹配度高的產品 商品 或專案,本質是通過一定的方式將使用者和專案聯絡起來。自從xerox palo alto研究中心於1992年研發出了基於協同過濾的實驗系統tapestry以來 主要...
推薦系統1
1 基於內容的推薦方法 基於內容的指推薦方法將會把與使用者過去曾經使用過或者喜歡的產品相似的產品推薦給使用者。這是出於同一使用者的歷史資料來推薦產品。2 協同過濾的推薦方法 協同過濾推薦方法將會把與使用者的喜好相類似的其他使用者曾經使用或者喜歡的產品推薦給使用者,是根據使用者間的相似度來推薦產品。3...
推薦系統(1)
主要思想 向顧客 x 推薦與之前被 x 高度評價的商品相似的商品 步驟item presentation 為每個item抽取出一些特徵來表示此item item profile 文字挖掘常用啟發式方法 tf idf profile learning 典型的監督分類問題 利用乙個使用者過去喜歡 不喜歡...