大資料架構 Lambda Architecture

2022-06-06 14:51:13 字數 588 閱讀 8275

lambda architecture(la)是一種大資料軟體涉及框架,最早由twitter工程師nathan marz提出,其目的是指導使用者充分利用批處理和流計算各自的優點實現乙個複雜的大資料處理系統。通過結合批處理和流計算,la可以在延遲、吞吐量和容錯之間找到平衡點。

la主要思想:將資料流程分解為3層:批處理層,流式處理層和服務層。

在該架構中,資料一流入kafka,之後按照不同的時間粒度匯入批處理和流式處理2個系統中。批處理層擁有歷史資料(通常儲存到hdfs/hbase中),通常用以實現推薦模型,它以當前資料(比如最近1小時的資料)和歷史資料為輸入,通過特徵工程,模型構建(通常是迭代演算法,使用mapreduce/spark實現)及模型評估等計算環節後,最終獲得最優模型並將產生的推薦結果儲存(redis)起來。整個過程延遲較大(分鐘甚至小時級別)。

為了解決推薦系統中的冷啟動問題(新使用者推薦問題),往往引入流式處理層:實時收集使用者行為,基於這些行為資料通過簡單的推薦演算法(通常使用strome/spark streaming實現)快速產生推薦結果並儲存起來。

大資料之大資料技術架構

上期我們說到大資料的概念,其實,大資料比我們想象中的還要複雜,本期,我們主要從技術的角度介紹一下大資料的知識。大資料技術是一系列技術的總稱,它是集合了資料採集與傳輸 資料儲存 資料處理與分析 資料探勘 資料視覺化等技術,是乙個龐大而複雜的技術體系。根據大資料從 到應用,實現傳輸的流程,可以將大資料技...

大資料架構 常見大資料技術

本文是一篇讀書筆記,源自 大資料架構詳解 part i 資料獲取 資料獲取元件 網頁採集 網路爬蟲 日誌收集 中介軟體技術 part ii 流處理 流的概念 流引擎 storm 流引擎 spark streaming 流引擎 flink part iii 互動式分析 互動式分析的概念 mpp db技...

大資料架構 Kafka

kafka 分布式的發布 訂閱訊息系統,主要用於處理活躍的資料 特點 高吞吐量 每秒百萬級別的生產消費 生產消費 永續性 由完善的訊息儲存機制,確保資料的高效安全的持久化 中間儲存 分布式 基於分布式的儲存和容錯機制 整體的健壯性 kafka的元件 kafka服務 topic 主題 kafka處理的...