1、資料倉儲
作為資料的管理和運算中心;
資料存檔;
各種統計、運算任務的核心平台;
2、使用者畫像系統
含義:深入分析使用者後給使用者打上各種規範標籤:年齡,性別,地域特徵,偏好特徵,價值指數,行為習慣,消費習慣…
作用:對使用者進行精準營銷,用於支撐精細化營運;
比如,針對不同的人**放不同的優惠券;
比如,針對不同的人群定製不同的打折規則;
比如,針對不同的人群推行不同的營銷活動;
比如,針對流失概率大的人群進行挽留;
3、推薦系統
含義:對不同的人,在不同的場景中,推薦不同的物品的系統
手段:可以根據使用者畫像及物品相似度,可以根據協同過濾演算法等推薦演算法
作用:改善使用者體驗,增加銷量
本資料處理系統可以使用離線計算方式實現,也可以使用實時計算方式實現;
更多的是離線和實時結合起來實現;
公司一般會根據不同的需求場景,靈活使用離線和實時技術:
離線:系統化的,計算的資料時間跨度長的,運算量大的任務
實時:對時效要求高的需求
1、預處理
構建各類字典(維表),比如:
地理位置字典
頁面資訊字典
商品資訊字典
使用者資訊字典
guid字典(全域性使用者唯一標識)等
對使用者行為事件埋點日誌進行資料清洗、解析、通用維度整合、guid標識等運算
2、資料倉儲ods層
ods層儲存的是源資料;
各類埋點日誌表:
各類業務表:
3、資料倉儲dwd層:
dwd層相對於ods層的主要變化為,將ods中的事實資料中某些字段進行進一步拆分,便於後續查詢處理;將ods中的事實資料整合常用的通用維度資訊,比如事件維度類資訊
4、資料倉儲dws層
對dwd層的表進行輕聚合運算所得到的各類結果
5、資料倉儲ads層
根據資料分析需求設計出來的各種最終結果表
通俗來說,數倉就是乙個資料備份和資料分析的系統,不同於資料庫
報表即統計計算結果,也就是一張資料庫表,一般儲存在mysql中
所謂視覺化,就是將資料庫中的資料表,以更友好的方式展(比如圖,比如**)現在一些「介面」上(比如桌面軟體,比如web頁面,比如excel等),以便於資料運營、分析人員能夠更加直觀地對資料進行檢視和理解、分析
etl中文全稱為:抽取.轉換.載入 extract transform load
etl是傳數倉開發中的乙個重要環節。它指的是,etl負責將分布的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集市中,成為聯機分析處理、資料探勘的基礎。
事實: 現實發生的某件事
維度: 衡量事實的乙個角度
事實表: 記錄事實資訊的表;
維度表:記錄維度的詳細描述資訊的表;
資料倉儲中的資料表,往往是分層管理、分層計算的:
ads層: 應用服務層
dws層:數倉彙總層
dwd層:數倉明細層
ods層:運算元據(最原始的資料)層 – 貼源層
一、地理位置字典構建
在埋點日誌中,有使用者的地理位置資訊,但是原始資料形式是gps座標;
但是gps座標在後續(地理位置維度分析)的分析中不好使用!
直接去匹配兩個哪怕距離很近的gps座標,很可能都匹配不上!
gps座標的匹配,不應該做這種精確匹配,應該做範圍匹配;
用geohash編碼工具包將gps座標裝換成geohash編碼
加工的結果格式要求為:
geohash碼, 省,市,區
在後續的數倉、畫像、推薦等模組開發中,我們都需要對每一條行為日誌資料標記使用者的唯一標識!
1、清洗過濾
去除json資料體中的廢棄字段(這是前端開發人員在埋點設計方案變更後遺留的無用字段):
大資料專案之數倉專案(一)數倉搭建
名稱版本 hadoop 3.1.3 flume 1.9.0 kafka 2.11 2.4.1 zookeeper 3.5.7 mysql 5.1.27 sqoop 1.4.6 spark 3.0.0 hive 3.1.2 本專案採用星型維度建模 1 配置sparkonhive 注意配置spark h...
數倉筆記 增量更新
全量計算開發處理雖然簡單,但隨著資料量的增加計算資源和時間會倍速增長 在物力人力等成本考量下,引入增量更新進行開發難度和計算資源的平衡。前提 設計 黃色為歷史分割槽,以建立日期分割槽存放 綠色為增量資料,根據建立時間可以劃分出來的分割槽 藍色為合併後的分割槽 從黃色部分取和綠色劃分相同的分割槽進行資...
數倉筆記 資料建模
3.資料整合及管理體系 3.3 分層建模 3.3.2 分層模型設計原則 3.4 主題域 3.5 建模實施 reference 隨著dt時代的發展,資料出現了爆發式的增長,需要對資料進行有序,有結構的分類組織和儲存,以方便應用。合適的資料建模,能帶來以下幾點好處 關係模型嚴格遵循第三正規化 3nf 較...