1.1業界主流推薦系統架構
業界推薦系統通用架構
1.2使用者本身資料
1.3物品本身資料
1.4使用者行為資料
2.1基於離線訓練的推薦系統架構設計
常用演算法:邏輯回歸(logistics regression)、梯度提公升決策樹(gbdt)和因式分解(fm)
架構設計:
2.2面向深度學習的推薦系統架構設計
常用演算法:受限玻爾茲曼(rbm)、自編碼器(ae)、卷積神經網路(cnn)、深度神經網路(dnn)、寬度學習(wide&deep)等
架構設計:
常用演算法:ftrl-proximal、adpredictor、adaptive oline learning 和pbodl等
架構設計:
2.4面向內容的推薦系統架構設計
常用演算法:nlp自然語言、word2vec、深度學習dnn、ocr等
架構設計:
3.1資料上報常用元件
3.2離線儲存常用元件
3.3離線計算常用元件
3.5模型服務常用元件
tensorflow serving可以搭建機器學習模型的服務,與tensorflow模型無縫連線,可自動載入新模型、批量處理請求、可水平擴充套件等。
3.6實時計算常用元件
apache storm是乙個開源的分布式實時計算系統。可以與apache kafka 開源流處理平台很好適配,常見用於資料實時統計、聚合分析、模型**等。
spark streaming是對spark核心api的乙個擴充套件,它提供實時資料流的可擴充套件、高吞吐、高可靠的流處理,方便開發者對流式資料進行處理。
1、實時性
問題:在基於基於離線訓練的推薦系統架構,模型迭代過程需要至少以小時為週期,僅適用於對資料時效性不高的業務場景。
解決方案:
2、多樣性
問題:推薦系統多樣性缺乏,推薦結果越來越同質化,使用者新鮮感降低、很難激發使用者購物需求。
解決方案:
針對這個問題,常見用熱傳導、二次優化、社會網路化等。通過設定合理的相似性、集中指數和覆蓋度,來提高推薦結果的多樣性和新穎性。
3、評估測試
現實生活中生產系統最常用的評估方法-abtest,一般先通過方法上下線保留更好的方案,同時不斷上線新的召回、排序特徵等,迭代優化模型,提公升線上效果。
離線演算法評估指標:準確率、覆蓋度、多樣性、新穎性和auc等。
推薦系統(1) 推薦系統概述
推薦系統是主動從大量資訊中找到使用者可能感興趣的資訊的工具。推薦系統的核心問題是如何實現推薦個性化 如何向使用者推薦匹配度高的產品 商品 或專案,本質是通過一定的方式將使用者和專案聯絡起來。自從xerox palo alto研究中心於1992年研發出了基於協同過濾的實驗系統tapestry以來 主要...
推薦系統架構
實時性 推薦系統要根據使用者的上下文來實時更新推薦內容,使用者的興趣也是隨著時間而改變的,需要實時更新。其中,前三者是和機器學習沒有任何關係的,但卻是推薦效果最好的三種方式。一般說來,這部分內容應該佔到總的推薦內容的80 左右,另外20 則是對長尾內容的個性化推薦。核心模組 資料路徑 1 請求的重新...
推薦系統系列 1 系統架構
最近開始學習推薦系統,在這裡做個記錄,會更新如下內容 推薦系統協同過濾與矩陣分解 推薦系統與深度學習 embedding在推薦系統中的應用 多角度審視推薦系統 推薦系統工程實現 推薦系統評估 推薦系統前沿 該系列內容是參考 王喆的深度學習推薦系統 和深度學習推薦系統 書籍 整理的,作為自己的學習筆記...