大資料架構分為:資料採集,傳輸,儲存,排程和處理這五個部分.其中任務定期執行和任務分配,分別使用azkaban和zookeeper,大資料平台整體架構如圖1所示,由圖1可知,大資料平台的基礎是伺服器(硬體),所有計算機相關的服務均是基於伺服器(或主機),伺服器是一切服務和資料的根本,用於儲存、通訊、提供服務等等,在伺服器中部署資料儲存服務,如mysql、hive等資料結構工具,在伺服器中儲存的資料是無「生命」的,當伺服器儲存了海量資料,並需要分析資料時,通過hadoop構建大資料平台,使這些無「生命」的資料「復活」,然而,通過mysql等工具儲存的資料不能直接被hadoop利用,需要利用如sqoop、kafka和flume等資料傳輸工具將海量的資料傳輸到hadoop的檔案系統hdfs中,儲存到hdfs中的資料經過hbase和yran標準化資料,供分析隨時呼叫,資料處理使用spark和flink,實現資料實時處理。當進行分布式部署大資料集群時,使用zookeeper維護集群,任務排程使用azkaban完成。
圖1 大資料架構
大資料工具及相關功能如圖2所示。
圖2 大資料工具
資料型別
結構化資料:資料庫資料.
半結構化資料:xml資料
非結構化資料:word,pdf,文字,**日誌.
大資料相關操作:
資料採集,策展,儲存, ,分享,傳輸,分析,展示.
hadoop是apache的大資料集處理的開源框架.hadoop執行批量處理,並且只能以順序方式訪問資料,意味著必須搜尋整個資料集,即使最簡單的搜尋任務,當處理結果在另乙個龐大的資料集,也是按照順序處理大資料集. 序號
特點1分布式儲存和處理
2hadoop提供的命令介面與hdfs進行互動
3內建伺服器的名稱節點和資料節點可檢查集群狀態
4流式訪問檔案系統資料
5提供檔案許可權和驗證
hdfs與現有的分布式系統有許多相似之處,但hdfs高度容錯並設計成部署在低成本的硬體上,提高了高吞吐量的應用資料訪問,並適用於具有大資料集的應用程式.
hbase是基於hdfs的分布式面向列的資料庫,是乙個資料模型,可以提供快速隨機訪問海量結構化資料,該資料模型定義只能有列族,及鍵值對,乙個表有多個列族及每乙個列族可以有任意數量的列,後續列的值連續儲存在磁碟上,表中的每個單元格都具有時間戳.用於解決hadoop只能批量順序處理資料,對隨機讀取速度慢的問題.
行列族列族列族
列1列2
列1列2
列1列212
3大資料高效儲存格式解決方案.
序號特點描述1
列式儲存
高效的列式資料組織,區別於行存,可實現列剪裁和過濾下壓,使olap查詢效能更高
2豐富的索引引擎
支援全域性多維索引,檔案索引,min/max,倒排索引等多種索引技術,從表級,檔案級和列級多個層級快速定位資料,避免sql-on-hadoop引擎常見的"暴力掃瞄",從而大幅度提公升效能
3全域性字典編碼
包括常見的delta,rle和bitpacking等編碼,應用全域性字典編碼來實現免解碼計算,計算框架可以直接使用經過編碼的資料來聚合,排序等計算
4自適應型別轉換
針對分析型應用中大量使用的數值型別(double/decimal/numerical/bigint)實現儲存內資料型別轉換,配合列式資料壓縮,使壓縮更加高效
5標準sql和api
在sparksql基礎上,支援標準sql99/2003,支援批量資料更新,刪除,適用於olap場景下資料的週期性重新整理,如拉鍊表更新,維表資料同步,提供jdbc/odbc連線,支援bi工具無縫對接,相容spark dataframe/dataset
6資料生態整合
支援與hadoop,spark等大資料生態整合,支援和商業bi工具無縫對接
序號特點
1sql支援,tidb是mysql相容的
2水平線性彈性擴充套件
3分布式事務
4跨資料中心資料強一致性保證
5故障自恢復的高可用
hive是基於hadoop的乙個資料倉儲工具,將結構化的資料檔案對映為一張資料表,並提供類sql查詢功能,通過hive將hql轉換為mapreduce執行,處理hdfs中的結構化資料。hive作為hdfs資料處理的中介,通過hive呼叫mapreduce功能。
oozie是管理hadoop任務的工作流排程程式
sqoop將批量結構化資料匯入hdfs,sqoop是基於乙個聯結器體系結構,支援外掛程式來提供連線到新的外部系統,sqoop聯結器與各種流行的關係型資料庫,如mysql,postgresql,oracle,sqlserver和db2,進項互動.
flume用於移動大規模批量流資料到hdfs系統,從web伺服器收集當前日誌檔案資料到hdfs聚合.
kafka是訊息中介軟體,但是具備儲存功能.
yarn(yet another resource negotiation,yarn),是快速,可靠,安全的依賴管理工具,用於分布式框架中的資源管理和作業排程.yarn最大的特點是執行排程與hadoop上執行的任務型別無關.
spark是大規模資料處理的統一分析引擎.
flink是大資料計算引擎,同時支援批處理和流處理.
storm
tableau
powerbi
finebi
更新ing
【參考文獻】
[1][2]
[3][4]
[5][6]
[7][8]/introto-flume-and-sqoop.html
[9][10]
[11]
[12]
[13]
[14]
DKHadoop大資料平台架構詳解
大資料的時代已經來了,資訊的 式增長使得越來越多的行業面臨這大量資料需要儲存和分析的挑戰。hadoop作為乙個開源的分布式並行處理平台,以其高拓展 高效率 高可靠等優點越來越受到歡迎。這同時也帶動了hadoop商業版的發行。這裡就通過大快dkhadoop為大家詳細介紹一下hadoop大資料平台架構內...
推送平台架構
由於cc部門沒有乙個公共的推送平台,各個業務之間推送手機訊息會非常費勁,而且沿用了pc架構的侷限性,只有使用者建立連線到伺服器才會收到各種訊息,在當今移動為王的環境,如果使用者的手機進入了休眠或者退出應用之後就不能接收訊息的話,是非常被動非常滯後的。因此,乙個公共的推送平台就出現了。簡單解釋一下各個...
SOA平台架構解析
大家看到圖可能有點暈了,不怕現在我們一起梳理一下 從上面的圖,我們可以看出阿里巴巴將我們的應用進行了拆分 分成了服務提供者 provider 和服務消費者 consumer 註冊中心專心做自己的註冊工作並暴露服務位址 監控中心進行對服務呼叫的情況進行統計,分別用圖形的形式展現出來。具體乙個服務的呼叫...