實習過後需要學習一下才更有體會~
問題:資料**式地增長,各種結構化、半結構化、非結構化資料的產生,越來越多的企業開始在大資料平台下進行資料處理。
結構簡單,便於事實資料分析,適合業務分析報表和bi;
結構較複雜,但它便於主體資料打通,適合複雜資料內容的深度挖掘。
每個企業在構建自己數倉時,應該根據業務形態和需求場景選擇合適的建模方式。對於應用複雜性企業,可以採用多種建模結合的方式,例如在基礎層採用維度建模的方式,讓維度更加清晰;中間層採用實體關係建模方式,使得中間層更容易被上層應用使用。
資料分層可以使得資料構建體系更加清晰,便於資料使用者快速對資料進行定位;同時資料分層也可以簡化資料加工處理流程,降低計算複雜度。
* 資料採集:把不同資料來源的資料統一採集到乙個平台上;
* 資料清洗,清洗不符合質量要求的資料,避免髒資料參與後續資料計算;
* 資料歸類,建立資料目錄,在基礎層一般按照**系統和業務域進行分類;
* 資料結構化,對於半結構化和非結構化的資料,進行結構化;
* 資料規範化,包括規範維度標識、統一計量單位等規範化操作。
* 打通同一實體不同**的資料
* 從行為中提取關係
* 可適當增加資料冗餘,以保障主題的完整性和資料的易用性
* 場景驅動建設,各及時之間垂直構建
* 集市層深度挖掘資料價值
* 能夠快速試錯
資料整合
* 結構化資料採集
* 全量採集:每日採集資料庫表的快照
* 增量採集:採集資料集每日變化的資料
* 實時採集:實時採集資料集的變化資料
* 非結構化資料特徵提取
例如語音轉文字、識別、自然語言處理等...
* 日誌結構化
* 日誌採集到平台之前不做結構化
* 通過udf和mr計算框架實現日誌結構化
* 日誌原始結構越規範,解析成本越低
* 資料體系
* 資料服務
* 統計服務:偏傳統的報表服務,利用大資料平台將資料加工後的結果放入關係型資料庫中,供前端的報表系統或業務系統查詢;
* 分析服務:提供明細的事實資料,利用大資料平台的實時計算能力,允許操作人員自主靈活的進行各種維度的交叉組合查詢。
* 標籤服務:大資料的應用場景下,經常會對主體進行特徵刻畫,比如客戶的消費能力、興趣習慣、物理特徵等等,這些資料通過打標籤轉換成kv的資料服務,用於前端應用查詢。
企業資料平台倉庫架構建設思路
1.倉庫建設原則 1 自上而下 自下而上。2 高容錯性 3 資料質量監控貫穿整個資料流程 3 不怕資料冗餘,利用儲存換易用 總體思路 模型設計 資料架構 資料治理 維度建模or實體關係建模 減少層次結構的目的是為了壓縮整體資料處理流程的長度,扁平化的資料處理流程有助於資料質量控制和資料運維。當前的資...
CM CDH構建企業大資料平台系列(十)
1 防火牆是幹什麼的?為什麼要關閉防火牆?防火牆是對我們的伺服器進行的一種保護,但是有時候也會妨礙集群間的相互通訊,所以我們需要關閉防火牆。2 怎麼關閉防火牆?常見的兩種方法 1 臨時性關閉 開啟 即輸入service iptables stop start 如果要在防火牆中設定某些埠的開關,可以修...
CM CDH構建企業大資料平台系列(十一)
1 ssh是什麼?為什麼要配置ssh免密碼登入?ssh是乙個可以在應用程式中提供安全通訊的乙個協議,通過ssh可以安全地進行網路資料傳輸,它的主要原理就是利用非對稱加密體系,對所有待傳輸的資料進行加密,保證資料在傳輸時不被惡意破壞 洩露或者篡改。但是hadoop使用ssh主要不是用來進行資料傳輸的,...