使用者畫像作為「大資料」的核心組成部分,在眾多網際網路公司中一直有其獨特的地位。作為國內旅遊ota的領頭羊,攜程也有著完善的使用者畫像平台體系。目前使用者畫像廣泛用於個性化推薦,猜你喜歡等;針對旅遊市場,攜程更將其應用於「房型排序」「機票排序」「客服投訴」等諸多特色領域。
本文將從目的,架構、組成等幾方面,帶你了解攜程在該領域的實踐。
首先,先分享一下攜程使用者畫像的初衷。一般來說,推薦演算法基於兩個原理「根據人的喜好推薦對應的產品」「推薦和目標客人特徵相似客人喜好的產品」。而這兩條都離不開使用者畫像。
根據使用者資訊、訂單、行為等等推測出其喜好,再針對性的給出產品可以極大提公升使用者感受,能避免使用者被無故打擾的不適感。同時針對不同畫像的使用者提供個性化的服務也是攜程使用者畫像的出發點之一。
2.1.攜程使用者畫像的產品架構
如上圖所示,攜程使用者畫像的產品架構大體可以總結為
註冊採集
計算儲存/查詢
監控所有的使用者畫像都會在」userprofile平台」中進行註冊,由專人審核,審核通過的畫像才可以在「資料倉儲」中流轉;之後會通過使用者資訊、訂單、行為等等進行資訊採集,採集的目標是明確的、海量的、無序的。
資訊收集的下一步是畫像的計算,攜程有專人制定計算公式、演算法、模型,而計算分為批量(非實時)和流式(實時)兩種,經過嚴密的計算,畫像進入「畫像倉庫」中;而根據不同的使用場景,我們又會提供實時和批量兩種查詢api供各呼叫方使用,實時的服務側重高可用,批量服務側重高吞吐;最後所有的畫像都在監控平台中得到有效的監控和評估,保證畫像的準確性。
2.2.攜程使用者畫像的技術架構
攜程發展到今天規模,更強調松耦合、高內聚,實行bu化的管理模式。而使用者畫像是一種跨bu的模型,故從技術架構層面,攜程使用者畫像體系如上圖所示。
各bu都可以貢獻有價值的畫像,而基礎部門也會根據bu的需要不斷製作新的畫像。畫像經過開源且經我們二次開發的datax和storm進入攜程跨bu的userprofile資料倉儲。在倉庫之上,我們會有redis快取層以保證資料的高可用,同時有實時和借助elasticsearch兩種方式的api,供呼叫方使用。
該架構有如下關鍵點:
上述是使用者畫像的總體描述,下面我將詳細分享各個細節。
如上圖所示,使用者畫像的註冊在乙個典型的mis系統中完成,userprofile資料的提供方在這裡申請,由專人審核。申請時,必須填寫畫像的含義、計算方式、可能的值等。
3.1.資訊採集
3.2.畫像計算
基礎資訊是海量的、無序的,不經加工沒有太大的價值。故使用者畫像的計算是資料流轉的關鍵所在。我們的bi團隊會制定嚴密的公式和模型,根據場景的需要,制定規則和引數,對採集資訊做非同步計算。這樣的計算由於耗時較長,一般我們會採用t+n的方式非同步更新,根據畫像的不同,資料新鮮度的要求亦不同。動態和組合標籤大多採用非同步方式計算更新。hive、datax等開源工具被使用在這個步驟中。
而有些畫像是事實或對新鮮度要求比較高的,故我們會採用kafka+storm的流式方案去實時更新計算。比如下圖,ubt(使用者行為資料)使用訊息通道hermes對接kafka+storm為userprofile的實時計算提供了有力的支援。
3.3.資訊儲存
使用者畫像的資料是海量的,被稱作最典型的」大資料」,故sharding分布式儲存、分片技術、快取技術被必然的引入進來。
攜程的使用者畫像倉庫一共有160個資料分片,分布在4個物理資料集群中,同時採用跨idc熱備、一主多備、ssd等主流軟硬體技術,保證資料的高可用、高安全。
由於使用者畫像的的使用場景非常多、呼叫量也異常龐大,這就要求使用者畫像的查詢服務一定要做到高可用。故我們採用自降級、可熔斷、可切流量等方案,在倉庫前端增加快取。如下圖所示,資料倉儲和快取的儲存目的不同,故是異構的。
3.4.高可用查詢
響應時間和tps是衡量服務可用性的關鍵指標,攜程要求所有api響應時間低於250ms(包括網路和框架埋點消耗),而我們使用者畫像實時服務採用自降級、可熔斷、自短路等技術,服務平均響應時間控制在8ms(包括網路和框架埋點消耗),99%響應時間控制在11ms。
大部分場景都是通過單個使用者獲取使用者畫像,但部分營銷場景則需要滿足特定畫像的使用者群體,比如獲取年齡大於30歲、消費能力強、有親子偏好的女性。這種情況下會返回大量使用者,此時就需要借助批量查詢工具。經過多次技術選型,我們決定採用elasticsearch作為批查詢的平台,封裝成api後很好的支援上述場景。
3.5.監控和跟蹤
在資料流轉的最後,資料的準確性是衡量使用者畫像價值的關鍵指標。基於高質量資訊優於大數量資訊的基調,我們設定了多層監控平台。從多個維度衡量資料的準確性。比如就使用者消費能力這個畫像,我們從使用者等級、使用者酒店星級、使用者機票兩艙等多個維度進行驗證和斧正。同時我們還要監控資料的環比和同比表現,出現較大標準差、方差波動的資料,我們會重新評估演算法。
上述所有環節組成了攜程跨bu使用者畫像平台。當然技術日新月異,我們也在不斷更新和區域性創新,或許明年又會有很多新的技術被引入到我們使用者畫像中,
遊戲化設計的精髓是結合使用者歷程進行UX設計
使用者歷程是什麼?為了創造令人愉悅的使用者體驗,將使用者所處的階段納入考慮範圍是至關重要的。實際情況在於,使用者常常會借助乙個產品來達成不同的目標,甚至他們每次使用產品的時候,目標都不一樣。設計師和使用者研究人員會注意到,隨著使用者逐步使用產品,在經驗和互動方式上,會有所轉變。這樣的特徵和使用者在遊...
攜程品牌影響力指數下滑 洩密門致八成使用者逃離
央廣網科技4月30日訊息,據中國軟體資訊網調查顯示,受洩密門事件的影響,3月份攜程網的品牌影響力指數從2月的72.35下滑24.6 至54.54,更有八成使用者因此逃離。除品牌影響力下滑之外,使用者逃離的現象還導致其流量大跌。僅僅乙個月的時間,攜程網的uv數量重挫80 從2月份的396萬uv下滑至7...