大資料平台基礎架構指南 讀書收穫

2021-10-01 19:07:00 字數 967 閱讀 7491

本書是蘑菇街 資料平台資深架構師結合其自身的大資料平台建設經驗所總結出來的一本書。

其中的 第1、2、10章主要講訴了大資料平台建設方**類的知識,平台建設應該以服務為本,以提高業務開發效率為目的,要有產品思維,要在建設的過程中發揮出價值來。

第3-9章分別講訴了作者在 排程系統、資料整合開發平台、資料採集系統、資料視覺化系統、許可權管理系統、資料質量管理及資料遷移幾個方面的實戰經驗。

自己的閱讀收穫有:

1.要抓住主要矛盾,集中攻關,為業務帶來價值 80/20法則的運用。

書中示例-> 做視覺化部分的時候不關注炫酷的頁面效果和介面展示的細節,花時間在常用的統計元件的優化上。

2.要提高解決問題的方**

書中示例-> 程式奔潰時,需要通過多種方式的收集問題自身的資訊例如:

a.質疑問題,考證現象,現有的結論是否站得住腳,是否還有疑點

b.能否再多方面收集一些資訊, 或者換乙個角度, 嘗試用 別的方式分析問題。

c.能否想辦法復現問題,或者學習新的技能解鎖進一步分析問題的能力 。

d.能否改進日誌,爭取下一次問題出現時能收集到更多資訊 。

e.在自以為修復問題後,能否針對性地進行後續的監控分析,看看是否真的解決了問題 。

3.技術選型和方案設計時要多參考業內已經成熟的各種開源軟體和方案,結合自身的業務特點來做選擇,在開源系統能夠滿足業務場景的情況下就使用開源的,能二次開發解決問題的二次開發一下,實在不行要綜合各種開源方案的優點自己再造個輪子。

書中各個系統案例講解的時候都有先介紹該領域已有的開源及各大公司的實踐情況,再引出各自的對現有業務的不足及作者的改進方案。

技術選型的套路跟大學時寫**的套路類似,先列出古往今來在該問題領域已有的解決方案,然後逐一的進行比較,列出優劣,再提出自己的改進方案,之後就是進行試驗和結果分析及總結。

4.各個系統的實踐對自己未來的工作有指導性的作用,自己可以對其中的一些資料平台的建設方法進行實踐,優化開發流程,提高開發效率,為業務側帶來價值。

大資料平台架構

大資料架構分為 資料採集,傳輸,儲存,排程和處理這五個部分.其中任務定期執行和任務分配,分別使用azkaban和zookeeper,大資料平台整體架構如圖1所示,由圖1可知,大資料平台的基礎是伺服器 硬體 所有計算機相關的服務均是基於伺服器 或主機 伺服器是一切服務和資料的根本,用於儲存 通訊 提供...

大資料平台Lambda架構詳解

lambda架構由storm的作者nathan marz提出。旨在設計出乙個能滿足。實時大資料系統關鍵特性的架構,具有高容錯 低延時和可擴充套件等特。lambda架構整合離線計算和實時計算,融合不可變 immutability,讀寫分離和隔離 一系列構原則,可整合hadoop,kafka,storm...

DKHadoop大資料平台架構詳解

大資料的時代已經來了,資訊的 式增長使得越來越多的行業面臨這大量資料需要儲存和分析的挑戰。hadoop作為乙個開源的分布式並行處理平台,以其高拓展 高效率 高可靠等優點越來越受到歡迎。這同時也帶動了hadoop商業版的發行。這裡就通過大快dkhadoop為大家詳細介紹一下hadoop大資料平台架構內...