目前圍繞hadoop體系的大資料架構包括:
傳統大資料架構
資料分析的業務沒有發生任何變化,但是因為資料量、效能等問題導致系統無法正常使用,需要進行公升級改造,那麼此類架構便是為了解決這個問題。依然保留了etl的動作,將資料經過etl動作進入資料儲存。資料分析需求依舊以bi場景為主,但是因為資料量、效能等問題無法滿足日常使用。
流式架構
在傳統大資料架構的基礎上,流式架構資料全程以流的形式處理,在資料接入端將etl替換為資料通道。經過流處理加工後的資料,以訊息的形式直接推送給了消費者。儲存部分在外圍系統以視窗的形式進行儲存。適用於預警、監控、對資料有有效期要求的情況。
lambda架構
lambda架構算大資料系統裡面舉足輕重的架構,資料通道分為兩條分支:實時流和離線。實時流依照流式架構,保障了其實時性,而離線則以批處理方式為主,保障了最終一致性。適用於同時存在實時和離線需求的情況。
unifield架構
unifield架構將機器學習和資料處理揉為一體,在流處理層新增了機器學習層。資料在經過資料通道進入資料湖後,新增了模型訓練部分,並且將其在流式層進行使用。同時流式層不單使用模型,也包含著對模型的持續訓練。適用於有著大量資料需要分析,同時對機器學習方便又有著非常大的需求或者有規劃的情況。
大資料(Kafka) 原理
在kafka中向topic傳送訊息者稱為producer,從topic獲取資料者稱為consumer,consumer被定義到乙個consumer group中,整個kafka集群通過zookeeper進行協調 kafka集群由多個broker例項組成,訊息按照topic進行分類儲存,每個topic...
大資料原理 HDFS
hdfs解決海量的資料分布式儲存 優勢 廉價硬體 實現資料流讀寫 支援大資料集 支援簡單檔案模型 跨平台相容 侷限 實時性不高 無法儲存大量小檔案 只支援追加 抽象塊概念設計 64或128mb 個 支援大規模資料儲存 檔案切割 突破單機儲存界限 降低定址開銷 定址 元資料目錄 資料節點 取資料 適合...
大資料原理筆記 MapReduce
解決能夠滿足 分而治之 處理要求的場景。處理結果之間不能相互依賴。map任務之間是不能通訊的,reduce之間也不會發生資訊交換。處理過程 inputformat,負責資料的輸入,驗證資料格式及檔案切分 split 通過rr record reader 過程,根據切片後檔案的位置資訊,從hdfs中將...