2023年開年伊始,雲棲大會上海峰會上,阿里雲宣布發布「核**」級平台——一站式大資料平台「數加」。該平台集合了阿里巴巴十年的大資料能力以及上萬名工程師實戰檢驗,包含數十款產品,涵蓋資料採集、計算引擎、資料加工、資料分析、機器學習、資料應用等鏈條,雲棲社群曾特別對其進行了詳細的介紹《阿里十年經驗輸出,大資料平台「數加」的前世今生》。
而在4月20日的雲棲大會深圳峰會的《大資料》專場上,數加又有新的迅猛變化,產品體系更加清晰,場景化方案走向個性化,來自企業的實踐也已走向深入。
如果從阿里雲官網導航欄的「大資料」入口進入,可以看到產品、解決方案、視覺化是數加的三大框架體系。具體來看:
產品方面已經擁有16款產品:
方案主打3個方向:
odps資料整合方案:提供可跨異構資料儲存系統、可靠、安全、低成本、可彈性擴充套件的資料傳輸互動服務,讓資料不再成為孤島;
個性化推薦:根據使用者的興趣特點和購買行為,推薦使用者感興趣的資訊和物品。
視覺化應用有3種:
如果濃縮到一張圖中,就是在阿里雲大資料事業部總監張金銀(花名:行在)演講中的一張:打通資料生產全鏈條。
在他看來:「阿里巴巴的命是拴在數加上的,承載了阿里巴巴集團、螞蟻金服集團eb級別資料的計算。作為大資料踐行者,阿里巴巴的大資料之路告訴我們,資料上雲(集中儲存、大規模計算、統一元資料)、資料資產化(資料整合、資料地圖、資料管理、資產計量)、業務創新(資料化運營、精準營銷、網際網路金融、智慧型物流)、資料生態(業務閉環、生態夥伴、運營資料、分享)這是dt時代所有有志於大資料實踐的必經之路,也是數加的使命。」
交通是大資料應用最為重要的場景之一。阿里雲資料事業部專家王正剛在分享中提到:訊號燈作為道路資源分配的存在,可以平衡人、車路權,也是提公升運輸效率的一種重要手段。經常能看到相關新聞報道,因為訊號燈失效,造成的擁堵和事故,可以說是「牽一發動全身」。
但談到交通訊號燈控制,傳統交通資訊採集裝置昂貴的造價和維護成本讓人卻步,所以一般難以覆蓋城市的所有道路,導致交通管理部門無法動態進行全網路交通流量的監控和疏導。移動網際網路的存在不僅降低了資訊採集成本,延伸了資料採集和道路監控範圍,而且可以基於道路上運動的車輛軌跡生成豐富的交通變數,比如說速度和車流量。舉例來看,基於動態路**通狀態資訊計算的路口平衡指數就是為了度量路口訊號燈調節交通供需關係的能力,它是實時路口平衡性和自由流狀態下完美平衡性之間的差值,所以平衡指數越高,路口對供需關係的協調能力就越弱。
基於2016q1廣州市移動網際網路資料分析,我們發現工作日路口平衡指數平均在早間7:00-9:00和晚間17:00 -18:00容易出現平衡指數小高峰。
工作日的路口平衡指數水平一般大於週末,但在二者的早間(0:00–6:00)和晚間(20:00–23:00),路口平衡指數相比較白天(10:00–17:00)都顯著下降。
深入到各個行政區,我們同樣發現工作日差異值普遍大於週末,所以工作日訊號燈調節交通供需的能力略微劣於週末,這可能和工作日道路通行壓力普遍較大有關。
事實上,實現訊號燈的評估,一方面可以評估單點路口的訊號燈控制,另一方面也可以評估綠波帶(線)的效果,比如可以通過實時路況資料反映綠波帶的設定在不同區域和時間段的合理性。更深層次的,我們可以基於平衡指數優化訊號燈配時,生成路口綠燈修正時間等。
使用者多層次需求:使用者範圍廣,不同年齡,不同地域,不同背景對內容喜好完全不同,人工推薦已無法滿足這麼需求;
而從產品需求來看,也有四方面:
有了真實的產品需求,下一步就是技術選型:考慮到人才、技術和時間,最終好看鎖屏通過阿里雲slb、ecs、oss、sls、指令碼實現了對離線資料和實時資料的收集,odps實現了儲存,採雲間進行了資料處理,最終通過分析報表系統分析出使用者、和訂閱的關係。現有分析統計流程見上圖。
但對於個性化推薦流程,還有很大優化空間。
效果比翟斌所預想還好。每日瀏覽從160張增加到220張增加了37.5%,主動訂閱提公升了33%,主動瀏覽內容從13次,9張/次增加到16次,12張/次,分別提上了23%和33%。
在他看來,個性化推薦引擎方面,實時、演算法和模板是最重要的三點,而數加個性化推薦引擎來自整合**最成熟的演算法,實現了實時個性化推薦,還有電商和閱讀等多模板選擇,在持續調優下,對企業的幫助極大。
—結束—
個性化推薦演算法實戰第01章個性化推薦演算法綜述
個性化召回 1 什麼是推薦系統?在介紹推薦演算法之前需要先介紹一下什麼是資訊過載。資訊過載就是資訊的數量遠超於人手工可以遍歷的數量。比如,當你沒有目的性的去逛超市,你不可能把所有的商品都看一遍都有什麼。同樣,無論是去書店看書,還是在電影 上搜尋電影,這些物品的量級對於沒有目的性 需求性的使用者而言都...
京東個性化推薦系統實戰(下)
推薦系統架構,推薦系統由品類平台,素材 特徵召回平台 模型計算打分服務,排序服務構成。將請求封裝成queryinfo物件,通過物件來向下完成一步步資料召回。首先是通過queryinfo物件召回品類 分類資訊。前邊有人問到是怎樣實現通用化?好問題,當時答得不太好,現在梳理總結一下,分類平台通過配置品類...
京東個性化推薦系統實戰(上)
推薦系統核心任務是排序,從線上服務角度看,就是將資料從給定集合中資料選擇出來,選出後根據一定規則策略方法 進行排序。線上服務要根據一定規則進行架構設計,架構設計是什麼?每一次權衡取捨都是設計,設計需要理解需求 深入理解需 求基礎上做權衡取捨。複雜系統架構需要需求方與研發人員反覆溝通 這需要技術領導者...