講鋒刃大資料方案之前,我們先整體看看大資料平台架構,有諸形於
內必形於外,很多區域性狀況的問題,需要從整體來看,為此,我們按照集
群狀況,典型業務流程和資料流、系統架構瓶頸點的思路順序,以表知裡
的進行一下梳理。
一、集群狀況的反饋
當前 hadoop 集群系統效能繁忙(3 大區域 7 大機房), 1000 多儲存
機器對應 4000 多計算機器, cpu 平均值 70%-80%(晚 20 點到 0 點較低),
分鐘負載很高,任務積壓重; ech1 幾百兆,峰值幾個 g;磁碟 io 約幾
百兆,峰值幾 g,讀寫 iops3000。儲存計算比為 1: 2,業務 job 還在增長之勢,
: 3 到 1: 4 將達到集群瓶頸。
很多時候我們看到集群繁忙,只當作運維問題去解決,擴容集群機器,
調整機房部署,優化排程能力和虛擬化,增強任務監控管理等。卻很少關
心集群上跑的都是些什麼任務,為什麼會給集群造成這麼大的壓力,我們
接下來通過梳理業務流程和資料流來搞清楚這個問題。
過對集群、採集、通道、統計、儲存、資料治理、
idc、業務場景的全鏈路架構分析,歸納出以下瓶頸點:
1. hadoop 集群的繁忙壓力
2. 所有業務全部依賴離線 m/r 計算和 hive sql
3. log 採集的大量重複內容
4. mq 集群每日訊息總量萬億但無法提供內容過濾
5. 冷熱儲存、短期儲存(天內)、長期儲存(t+1,周、月、年)
混一起6. 做到小時和分鐘級別統計很難。
7. 沒有乙個統一精簡的資料模型形成標準。
8. 業務的儲存和計算還在迅速增長……
但是不可能所有的架構瓶頸都能在短時間內進行優化改進,我們需要
尋找乙個最合適的切入點,先解決最迫切的問題
遷入實時計算進行優化的考慮
1. 經過分析了燈塔、應用寶、手機瀏覽器和手機管家,業務的相似主
線模式如下,更適合實時處理。
2. 清洗部分實時處理 demo 驗證:相對於離線計算 map/reduce
的時間消耗換算,耗用機器數從 84 臺降低到 15 臺 m10,完成了 90% 的
資料量進行流式清洗,包括:從 kafka 拉資料 -> 解包 ->byte2string-> 清洗
->string2byte->, 5 分鐘處理 10 億訊息資料, 333w/s,接近 mq 純拉取消
費的 360w/s。
3. 清洗轉換步驟,採用實時流處理架構如 storm,通過 spout 從 mq
獲取輸入流,自定義多個 bolt 並行處理輸入流,再依此組合設計。
看Adaptive Path如何應對瞬息萬變的世界
選擇讀 subject to change 這本書,首先是因為它薄,有手感。再看題目,嗯,講變化的,這東西靠譜,很動感,很想讀。通讀全書,發現了很多介紹企業建設和產品設計的策略,雖然一些內容不能完全理解和接受,但書中的幾個觀點確實讓我印象深刻,並深感受用。使用者是一切的一切 you press th...
知物由學 如何應對日益強大的零日攻擊
知物由學 是網易雲易盾打造的乙個品牌欄目,詞語出自漢 王充 論衡 實知 人,能力有高下之分,學習才知道事物的道理,而後才有智慧型,不去求問就不會知道。知物由學 希望通過一篇篇技術乾貨 趨勢解讀 人物思考和沉澱給你帶來收穫的同時,也希望開啟你的眼界,成就不一樣的你。作者介紹 benjamin rous...
三艦護航,看懂球帝如何應對日增百萬使用者
世界盃期間,阿里雲為懂球帝祭出三艘護航艦,為其提供全面的護航方案。現場值守的同時,還提供了專業的安全管理方案,幫助懂球帝抵擋住網路攻擊,讓全球億萬球迷可以更加盡情地享受足球盛宴。效能測試pts performance testing service 是卓越的saas效能測試平台,具備強大的分布式壓測...