本文是一篇讀書筆記,源自《大資料架構詳解》。
part i: 資料獲取
資料獲取元件
網頁採集-網路爬蟲
日誌收集
中介軟體技術
part ii: 流處理
流的概念
流引擎-storm
流引擎-spark streaming
流引擎-flink
part iii: 互動式分析
互動式分析的概念
mpp db技術
sql on hadoop技術
大資料倉儲
part iv: 批處理技術
批處理技術的概念
mpp db技術
mapreduce 程式設計框架
spark 架構和原理
批處理關鍵技術
part v: 資源管理
資源管理的基本概念
hadoop 領域的資源排程框架 - yarn
多租戶技術
part vi: 儲存技術
大資料之大資料技術架構
上期我們說到大資料的概念,其實,大資料比我們想象中的還要複雜,本期,我們主要從技術的角度介紹一下大資料的知識。大資料技術是一系列技術的總稱,它是集合了資料採集與傳輸 資料儲存 資料處理與分析 資料探勘 資料視覺化等技術,是乙個龐大而複雜的技術體系。根據大資料從 到應用,實現傳輸的流程,可以將大資料技...
什麼是大資料技術架構
大資料的應用開發過於偏向底層,具有學習難度大,涉及技術面廣的問題,這制約了大資料的普及。現在需要一種技術,把大資料開發中一些通用的,重複使用的基礎 演算法封裝為類庫,降低大資料的學習門檻,降低開發難度,提高大資料專案的開發效率。大資料在工作中的應用有三種 與業務相關,比如使用者畫像 風險控制等 與決...
大資料技術
如果沒有乙個好的開始,不妨試試乙個壞的開始吧。因為乙個壞的開始,總比沒有開始強。而完美的開始,則永遠都不會來到。資料採集傳輸主要技術 分為兩類,一類是離線批處理 另一類是實時資料採集和傳輸 離線批處理最有名的是sqoop 實時資料採集和傳輸最為常用的是flume和kafka sqoop 一款開源的離...