文章講的是張粵磊:資料處理的那些事兒,
2023年5月12日-14日,第七屆中國資料庫技術大會(dtcc 2016)在北京國際會議中心拉開帷幕。本次會場面積達1000平方公尺,共設有23個專場50個展位,盛邀了130餘位國內頂尖的技術專家和我們一起就「資料定義未來」展開討論和分享。
本次資料庫大會由飛谷雲創始人張粵磊為我們帶來了《大資料治理:資料處理的那些事》的精彩演講,在演講中張粵磊表示:資料治理是現代企業的普遍訴求,那麼傳統數倉的資料處理技術是什麼?在大資料時代,資料處理技術發生了哪些變化呢?
▲飛谷雲創始人張粵磊
傳統資料倉儲的資料處理技術
張粵磊從七個方面來和我們講述了傳統數倉的資料處理技術:1.概念定義,這個部分要求我們將源資料、資料整合、特定業務等等這些部分涉及到的字段做乙個統一的標準定義,除此之外,也需要對企業內部的許可權管理做出劃分。2.業務定義,按實際應用的業務需求實現客戶對應清單、報表型別等等內容。3.邏輯定義,這一部分涉及到了業務的具體實現,主要包括資料庫的選型、工具的選型等等。4.物理定義,為所選db選擇合適的網段,伺服器等硬體裝置。5.規則定義,這一部分很重要的乙個理念就是分層治理,其中最為著名的是三層維度的治理。6.設計定義,這一部分涉及到文件設計,主要是為開發人員提供便利。7.開發實現:資料來源資料通過資料處理工具進入到資料倉儲,然後再前端展現出來,在資料工具的選擇上,張粵磊推薦大家使用informatica。
在進行傳統數倉的資料處理有六個方面是大家必須要考慮的:完整性、準確性、規範性、唯一性、一致性和關聯性。張粵磊認為對資料來說,沒有完美的工具,任何的rdbms,都無法涵蓋大量的非結構化業務資料,所以只能選擇對資料來說最合適的工具。
大資料環境下的資料處理技術
公共資料(通過各種爬蟲工具獲得的資料)、埋點資料(通過友盟平台或自己開發的sdk工具獲得的資料)和使用者及交易資料進入大資料平台的hfds使用hive進行資料的etl和模型構建,之後利用spark工具對hive的處理邏輯進行計算引擎提公升,使用hbase或者rdbms來保證資料查詢顯示的快速呼叫。
▲公共資料及行為資料的資料處理技術
在這其中,對於公共資料的處理要注意以下3點:1.在介面定義中要把介面規範變更版本及內容加入到資料字段中。2.落地後的檔案時間和成功標誌資訊同樣要參與資料處理。3.在資料倉儲處理和分析展示中新增資料處理的可追溯資訊。行為資料的處理也有3點需要大家注意:1.埋點資料一定要符合業務資料資訊流,這樣才能保證資料處理的完整性和確保資料的業務可用性。2.行為資料的標識健(uid,did)要與其它資料來源統一關聯健和對應時間週期,以此來確保資料的一致性和關聯性。3.行為資料的元資料資訊盡可能從源頭以字段化方式植入資料處理的資料檔案中。
▲公共資料及行為資料的資料處理技術案例圖
傳統資料倉儲到大資料資料倉儲
傳統數倉的遷移到大資料平台主要涉及到就是資料同步和脫敏。資料處理的重點應該落在全樣本資料基於業務時間的週期同步落地。基於rdbms的敏感資料在進入大資料平台後進行必須進行脫敏處理以確保資料安全。大資料平台的遷移和構建過程中,資料基因定義一定要完整準確,資料血緣設計要清晰可溯,資料安全機制要原子化,核心指標及元資料要做到視覺化和監控自動化。
Bat批處理的那些事兒
echo on 允許在執行過程中顯示執行命令 echo off 禁止在執行過程中顯示執行命令 type a.txt 顯示已有檔案a.txt中的內容 echo m a.txt 將m的內容寫入a.txt中,表示清空另寫入 echo m a.txt 將m的內容寫入a.txt中,表示追加再寫入 echo 表...
資料清洗的那些事兒
內容包括兩個部分 一 什麼是資料清洗 二 資料清洗的常見問題 1處理離群點 2改善資料 3資料調和 4標準化 檢測和去除資料集中的雜訊資料和無關資料,處理遺漏資料,去除空白資料域和知識背景下的白雜訊。通俗來講就是把髒資料清洗掉,提高資料質量。1.資料清洗常見問題之處理離群點 對離群點最簡單的解釋是 ...
大資料的那些事兒
資源列表 分布式檔案系統 檔案資料模型 注意 業內存在一些術語混亂,有兩個不同的東西都叫做 列式資料庫 這裡列出的有一些是圍繞 key map 資料模型而建的分布式 持續型資料庫,其中所有的資料都有 可能綜合了 鍵,並與對映中的鍵 值對相關聯。在一些系統中,多個這樣的值對映可以與鍵相關聯,並且這些對...