資料中臺建設是乙個巨集大的工程,涉及整體規劃、組織搭建、中臺落地與運營等方方面面的工作,本節重點從物理形態上講述企業的資料中臺應該如何搭建。一般來講,企業的資料中颱在物理形態上分為三個大層:工具平台層、資料資產層和資料應用層。
1. 工具平台層
工具平台層是資料中颱的載體,包含大資料處理的基礎能力技術,如集資料採集、資料儲存、資料計算、資料安全等於一體的大資料平台;還包含建設資料中颱的一系列工具,如離線或實時資料研發工具、資料聯通工具、標籤計算工具、演算法平台工具、資料服務工具及自助分析工具。
以上工具集基本覆蓋了資料中颱的資料加工過程。
1)資料開發平台
大資料的4v特徵決定了資料處理是乙個複雜的工程。建設資料中臺需要搭建建設資料中颱的基建工具,要滿足各種結構化、非結構化資料的採集、儲存與處理,要根據場景處理離線和實時資料的計算與儲存,要將乙個個資料處理任務串聯起來以保障資料的運轉能賦能到業務端。
2)資料資產管理
資料中臺建設的成功與否,與資料資產是否管理有序有直接關係。前文提到,資料中颱是需要持續運營的。隨著時間的推移,資料不斷湧入資料中臺,如果沒有一套井然有序的資料資產平台來進行管理,後果將不堪設想。
3)標籤工廠
標籤工廠又稱標籤平台,是資料中臺體系內的明星工具類產品。標籤建設是資料中臺走向資料業務化的關鍵步驟。因此,乙個強大的標籤工廠是資料中臺價值體現的有力保障。
標籤工廠按功能一般分為兩部分:底層的標籤計算引擎與上層的標籤配置與管理門戶。標籤計算引擎一般會採用mapreduce、spark、flink等大資料計算框架,而計算後的標籤儲存可採用elasticsearch或者hbase,這樣儲存的好處是便於快速檢索。
5)機器學習平台
在整個機器學習的工作流中,模型訓練的**開發只是其中一部分。除此之外,資料準備、資料清洗、資料標註、特徵提取、超引數的選擇與優化、訓練任務的監控、模型的發布與整合、日誌的**等,都是流程中不可或缺的部分。
2、資料資產層
資料資產層是資料中颱的核心層,它依託於工具平台層,那麼這一層又有什麼內容呢?答案是因企業的業務與行業而異,但總體來講,可以劃分為主題域模型區、標籤模型區和演算法模型區。
1)主題域模型
主題域模型是指面向業務分析,將業務過程或維度進行抽象的集合。業務過程可以概括為乙個個不可拆分的行為事件,如訂單、合同、營銷等。
為了保障整個體系的生命力,主題域即資料域需要抽象提煉,並且長期維護和更新,但是不輕易變動。在劃分資料域時,既要涵蓋當前所有業務的需求,又要保證新業務能夠無影響地被包含進已有的資料域中或者很容易擴充套件新的資料域。
2)標籤模型
標籤模型的設計與主題域模型方法大同小異,同樣需要結合業務過程進行設計,需要充分理解業務過程。標籤一般會涉及企業經營過程中的實體物件,如會員、商品、門店、經銷商等。這些主體一般來說都穿插在各個業務流程中,比如會員一般都穿插在關注、註冊、瀏覽、下單、評價、服務等環節。
3)演算法模型
演算法模型更加貼近業務場景。在設計演算法模型的時候要反覆推演演算法模型使用的場景,包括模型的冷啟動等問題。整個模型搭建過程包含定場景、資料來源準備、特徵工程、模型設計、模型訓練、正式上線、引數調整7個環節。
3、資料應用層
資料應用層嚴格來說不屬於資料中颱的範疇,但資料中颱的使命就是為業務賦能,幾乎所有企業在建設資料中颱的同時都已規劃好資料應用。資料應用可按資料使用場景來劃分為以下多個使用領域。
1)分析與決策應用
分析與決策應用主要面向企業的領導、運營人員等角色,基於企業的業務背景和資料分析訴求,針對客戶拉新、老客運營、銷售能力評估等分析場景,通過主題域模型、標籤模型和演算法模型,為企業提供視覺化分析專題。
使用者在分析與決策應用中快速獲取企業現狀和問題,同時可對資料進行鑽取、聯動分析等,深度分析企業問題及其原因,從而輔助企業進行管理和決策,實現精準管理和智慧型決策。
2)標籤應用
標籤旨在挖掘實體物件(如客戶、商品等)的特徵,將資料轉化成真正對業務有價值的產物並對外提供標籤資料服務,多應用於客戶圈選、精準營銷和個性化推薦等場景,從而實現資產變現,不斷擴大資產價值。
標籤體系的設計立足於標籤使用場景,不同使用場景對標籤需求是不同的,譬如在客戶個性化推薦場景下,需要客戶性別、近期關注商品型別、消費能力和消費習慣等標籤。
3)智慧型應用
智慧型應用是數智化的乙個典型外在表現。比如在營銷領域,不僅可實現千人千面的使用者個性化推薦,如猜你喜歡、加購推薦等,還可借助智慧型營銷工具進行高精準度的使用者觸達,推動首購轉化、二購促進、流失挽留等。
隨著大資料與人工智慧技術的不斷迭代以及商業大資料工具產品的推出,資料中颱的架構設計大可不必從零開始,可以採購一站式的研發平台產品,或者基於一些開源產品進行組裝。企業可根據自身情況進行權衡考慮,但無論採用哪種方案,資料中颱的架構設計以滿足當前資料處理的全場景為基準。
以開源技術為例,資料中颱的技術架構如圖所示,總體來看一般包含以下幾種功能:資料採集、資料計算、資料儲存和資料服務;在研發、運維和公共服務方面包括離線開發、實時開發、資料資產、任務排程、資料安全、集群管理。
1、資料採集層
按資料的實時性,資料採集分為離線採集和實時採集。離線採集使用datax和sqoop,實時採集使用kafka connect、flume、kafka。
在離線資料採集中,建議使用datax和sqoop相結合。datax適合用在資料量較小且採用非關係型資料庫的場景,部署方式很簡單。sqoop適合用在資料量較大且採用關係型資料庫的場景。
2. 資料計算層
資料計算採用yarn作為各種計算框架部署的執行排程平台,計算框架有mapreduce、spark及spark sql、flink、spark mllib等。
3. 資料儲存層
資料儲存層所有的儲存引擎都基於hadoop的hdfs分布式儲存,從而達到資料多份冗餘和充分利用物理層多磁碟的i/o效能。在hdfs上分別搭建hive、hbase作為儲存資料庫,在這兩個資料庫的基礎上再搭建impala、phoenix、presto引擎。
4. 資料服務層
資料服務層採用的技術與業務應用類似,主要基於開源spring cloud、spring boot等構建,使用統一的服務閘道器。
終於有人把Docker講清楚了!
富 web 時代,應用變得越來越強大,與此同時也越來越複雜。集群部署 隔離環境 灰度發布以及動態擴容缺一不可,而容器化則成為中間的必要橋梁。來自 pexels 本文我們就來探索一下 docker 的神秘世界,從零到一掌握 docker 的基本原理與實踐操作。別再守著前端那一畝三分地,是時候該開疆擴土...
BI和報表等於資料分析?終於有人講清楚了它們的區別
調研發現,很多人對bi的理解側重於資料的分析和展示,bi更多地被等同於資料分析與資料視覺化。因此在大多數企業中,bi更多地是指分析和前端展示工具,而不是乙個完整的體系。商業智慧型 對商業智慧型bi工具的定義 以資料視覺化和分析技術為主,具備一定的資料連線和處理能力的軟體工具,使用者能通過視覺化的介面...
中颱及資料中臺
資料諮詢公司thoughtworks首席諮詢師王建給出的10字定義 企業級的能力復用平台 最早由阿里2015年提出的 大中台,小前台 戰略中延伸出來的概念,靈感 於馬爸爸15年拜訪了supercell公司。企業前方市場與企業內部支撐的衝突。變化無序穩定有序 前台與後台的衝突。快速響應,低成本試錯紮實...