接下來,我們以阿里巴巴大資料架構圖來介紹。
大資料系統體系分為資料採集層、資料計算層、資料服務層和資料應用層。簡單介紹一下這四層的具體作用和使用到的技術(講述的內容包含但不限於阿里巴巴的知識):
1 資料採集層
資料採集的物件主要是傳統資料庫資料和日誌資料。一般公司採用sqoop開源工具採集傳統資料庫資料,大公司會開發專門工具。例如,阿里的datax和同步中心。
2 資料計算層
資料只有被整合和計算,才能被用於洞察商業規律,挖掘潛在資訊,從而實現大資料價值,達到賦予的商業和創造價值的目的。
在構建全域資料體系,應遵循統
一、規範、可共享等特點,避免資料的冗餘和重複建設,規避資料煙囪和不一致性,充分發揮大資料海量、多樣性方面的優勢。
從資料計算頻率角度,資料倉儲可分離線資料倉儲和實時資料倉儲。離線資料倉儲主要是指傳統的資料倉儲概念,資料計算頻率主要以天(包含小時、周和月)為單位;如t-1,則是每天凌晨跑上一天的資料。但是隨著業務的發展特別是交易過程的縮短,使用者對資料產出的實時性要求逐漸提高,實時資料倉儲的概念也孕育而生。
在大資料系統中,元資料模型整合及應用是乙個重要的組成部分,主要包含資料來源元資料、資料倉儲元資料、資料鏈路元資料、工具類元資料、資料質量類元資料等。元資料應用主要面向資料發現、資料管理等,如用於儲存、計算和成本管理。
3 資料服務層
當資料已被整合和計算好之後,需要提供給產品和應用進行資料消費。為了有更好的效能和體驗,阿里巴巴構建了自己的資料服務層,通過介面服務化方式對外提供資料服務。針對不同的需求,資料服務層的資料**架構在多種資料庫之上,如mysql和hbase等。
以資料倉儲整合計算好的資料作為資料來源,對外通過介面的方式提供資料服務,主要提供簡單資料查詢服務、複雜資料查詢(使用者識別、使用者畫像等)和實時資料推送服務。
4 資料應用層
資料準備好後,通過合適的應用提供給使用者,讓資料最大化地發揮價值。對資料的應用有很多方面,如搜尋、推薦、廣告、金融、信用、保險等。應用產品也有很多,如實時資料監控、巨集觀決策分析支撐平台、物件分析工具、行業資料分析門戶等。
大資料第一章複習
大資料4 v 資料量大 volume 資料型別繁多 variety 處理速度快 velocity 價值密度低 value 大資料對思維方式的影響 全樣而非抽樣 效率而非精確 相關而非因果。大資料的基本處理流程 資料採集 儲存 分析和結果呈現。資料採集與預處理 利用etl工具將分布的 異構資料來源中的...
SICP讀書筆記(4) 目錄,第一章總述
b size medium 目錄 size b sicp的前三章是考察任何乙個開發體系 例如程式語言 開發元件 設計模式 開發框架 所必須了解的最最基本的三個方面。接觸任何乙個新的開發體系時,應該按部就班地搞清楚其 color darkblue b 構造過程抽象 b color 的方式 color ...
第一章 大資料學習之大資料概述
大資料4個特性 大量化 資料量大 多樣化 資料型別多 快速化 處理速度快 價值化 價值密度低 科學研究4種正規化 實驗 理論 計算 資料 大資料關鍵技術兩大核心 分布式儲存 gfs hdfs big table hbase nosql 鍵值 列族 圖形 文件資料庫 newsql sql azure ...