為什麼分層:
1:清洗資料結構:每乙個資料分層都哦於他的作用域和職責,在使用表的時候能更方便定位和理解
2:統一開發:減少重複開發;規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算
3:統一資料口徑:通過資料分層,提供統一的資料出口,統一對外輸出的資料口徑
4:複雜問題簡單化:將乙個複雜的任務分解成多個步驟來完成,每乙個層解決特定的問題
ods層 operational data store
etl後的資料進ods層
或不清洗:方便追溯資料
dwd層 data warehouse detail
ods層按主體建造資料模型(業務表示)
???如果etl資料直接進ods層
錯誤日誌收集 , 計數
ods層 operational data store
(文字格式) =-= 大資料用的不多,用列式儲存;
dwd層 data warehouse detail d
(orc/parquet)
壓縮體積 小很多
dws層 data warehouse server d
彙總操作
輕度彙總
echo "省份流量統計"
hive -e "
use ruozedata_dw;
create table if not exists dws_access_province_traffic(
province string,
traffics int
)partitioned by(d string)
row format delimited fields terminated by '\t';
insert overwrite table ruozedata_dw.dws_access_province_traffic partition(d='$time')
select province, sum(response_size) as traffics
from ods_access where d='$time' group by province;
"
#!/bin/sh
time=20200523
echo "網域名稱流量統計"
hive -e "
use ruozedata_dw;
create table if not exists dws_access_domain_traffic(
domain string,
traffics int
)partitioned by(d string)
row format delimited fields terminated by '\t';
insert overwrite table ruozedata_dw.dws_access_domain_traffic partition(d='20200523')
select domain, sum(response_size) as traffics
from ods_access where d='$time' group by domain;
"
1)每天資料量
每條日誌多大 位元組 300-500
有多少條 1000w使用者 * 5次 * 5
每條日誌多少字段:50-70欄位
總資料量
(300-500 * 1000w * 5 )/(1024 * 1024 * 1024) == 70-116g
2)每天增量
web services理論知識
web服務作為一種能夠快速整合應用的技術,如果與非同步傳輸進行組合,就將為構建企業級應用提供所需的可靠性。在本文中,我們嘗試用兩種設計方法來部署和訪問非同步web服務 通過使用 apache axis 在第一種方法中,用websphere mq support pac ma0r來提供mq傳輸 利用w...
理論知識總結
軟體定義 程式 資料結構 文件。軟體危機 落後的軟體生產方式無法滿足迅速增長的計算機軟體要求,從而導 致軟體開發與維護過程中出現的問題。軟體工程 方法 工具 過程。軟體生命週期模型 瀑布模型,v模型,迭代模型。軟體測試是對軟體需求分析 設計 編碼的最終複查的一系列過程,是軟體質量保證的關鍵步驟 目的...
天線理論知識
zigbee 1為乙個預估的exel ti提供的基於friis等式和二維反射平面模型計算的,通過理論計算可得到傳輸的理論距離。影響通訊距離有如下主要的指標 頻段選擇 選擇的通訊頻段越高,通訊距離越短。頻段越低天線越難設計。發射功率 發射功率越大,通訊距離越遠,與此同時,板子的功耗也越高,正常情況下,...