各種大資料工具架構

2021-08-02 03:44:32 字數 2134 閱讀 9493

大資料的概念

大資料的特點可以用4個v來描述:volume(大)、variety(多)、velocity(快)、value(低)

大資料管理:

hadoop是google gfs以及mapreducc系統的開源實現,使用者可以在不了解分布式底層細節的情況下開發分布式程式,但是無法做到動態和實時的分析。

流計算系統能夠處理實時的資料流,實時分析系統主要採用傳統的mpp技術從海量資料中實時提取有價值的彙總資訊::

大資料理解:

大資料內部以及資料和資料之間關係的理解涉及資料探勘、機器學習、多**理解等多個前沿領域的技術

大資料應用:

大資料技術應用在網際網路營銷將產生彭妾的商業價值

mapreduce

mapreduce框架會自動處理資料劃分、多機並行執行、任務之間的協調,並且能夠處理某個任務執行失敗或者機器出現故障的情況。

框架實現時主要做了兩點優化:

本地化:盡量將任務分配給離輸入檔案最近的map程序,

備份任務:如果某個map或者reduce任務執行的時間較長,主控程序會生成乙個該任務的備份並分配給另外乙個空閒的map或者reduce程序。

框架有效地解決了海量資料的離線批處理問題,

google tenzing:基於mapreduce模型構建sql執行引擎、直接用sql處理大資料

microsoft dryad:

google pregel:影象模型迭代計算

流式計算原理

流式計算強調的是資料流的實時性。

實時分析

mpp架構

並行資料庫往往採用mpp架構

mpp架構是一種不共享的結構,每個節點可以執行自己的作業系統、資料庫等。

常見的資料分布演算法有兩種:範圍分割槽、雜湊分割槽

emc公司研發的一款採用mpp架構的olap產品,底層基於開源的postgresql資料庫。

的學術研究專案c-store的商業版本,

googledremel

是google的實時分析系統,可以擴充套件到上千臺機器規模,處理pb級別的資料。

還是googlebigtable服務的底層儲存和查詢引擎。

大資料之大資料技術架構

上期我們說到大資料的概念,其實,大資料比我們想象中的還要複雜,本期,我們主要從技術的角度介紹一下大資料的知識。大資料技術是一系列技術的總稱,它是集合了資料採集與傳輸 資料儲存 資料處理與分析 資料探勘 資料視覺化等技術,是乙個龐大而複雜的技術體系。根據大資料從 到應用,實現傳輸的流程,可以將大資料技...

大資料架構 常見大資料技術

本文是一篇讀書筆記,源自 大資料架構詳解 part i 資料獲取 資料獲取元件 網頁採集 網路爬蟲 日誌收集 中介軟體技術 part ii 流處理 流的概念 流引擎 storm 流引擎 spark streaming 流引擎 flink part iii 互動式分析 互動式分析的概念 mpp db技...

大資料架構 Kafka

kafka 分布式的發布 訂閱訊息系統,主要用於處理活躍的資料 特點 高吞吐量 每秒百萬級別的生產消費 生產消費 永續性 由完善的訊息儲存機制,確保資料的高效安全的持久化 中間儲存 分布式 基於分布式的儲存和容錯機制 整體的健壯性 kafka的元件 kafka服務 topic 主題 kafka處理的...