實時架構:以資料生成為單位處理資料
資料種類的多樣化
問題2:如何解決資料大無法儲存或者計算的問題?
定義:就是將多台機器的資源【集群】在邏輯上合併成==乙個整體==,通過分布式的軟體,提供分布式的服務
過程
step3:分布式服務將若干個小的任務分配給多台機器共同執行,每台機器處理不同的小任務
step4:當使用者需要獲取結果時,要將所有小任務的結果進行合併,返回最終結果
舉例 分布式服務將這個三個5tb的塊,儲存到三颱機器,每台機器儲存5tb
當使用者讀取這個檔案,向分布式服務請求讀取,分布式服務要根據當初這個檔案拆分的三個塊合併,返回給使用者
計算
將三個task分配給三颱機器來執行計算
啟動task4將三颱機器的結果進行合併
將最後結果返回給使用者
問題3:分布式解決了什麼問題?
問題4:分布式的通用架構是什麼樣的?【不包括zookeeper】
接客:接受客戶端的請求
不同分布式從節點的程序名稱都不一樣:leader、namenode,resourcemanager、master……
從節點:負責管理每一台機器自己的資源
問題5:分布式架構中存在問題?
問題6:zookeeper如何解決分布式的兩個問題?
問題:主節點單點故障問題
問題:如何決定誰是工作誰是備份?
zookeeper:解決分布式存在的問題
所有分布式框架,要麼利用zk解決分布式問題,要麼自己實現類似zk的解決方案
問題7:zookeeper自己也是分布式的,它的問題需要自己解決?
問題:zk如何保證每台機器的內容是一致的?
問題:如果leader故障怎麼辦?
問題:如果leader故障怎麼辦?
[外鏈轉存中…(img-l9kyu1r2-1606877554427)]
HDFS分布式儲存有什麼優勢 如何進行資料儲存
hdfs分布式儲存有什麼優勢?如何進行資料儲存 在面對資料海量增長時,雖然使用者生成的資料是網路最有價值的資產,但網際網路使用者自己幾乎無法控制這些資料 資料儲存 資料所有權都高度集中,今天的網際網路生態系統使得少數公司攫取極高的利潤,平台之間相互兼併,對於使用者資料則是肆無忌憚的 分享 導致終端使...
基於MongoDB進行分布式資料儲存的步驟
本文是研究mongodb分布式資料儲存的副產品,通過本文的相關步驟可以將乙個大表中的資料分布到幾個mongo伺服器上。mongodb的1.6版本中auto sharding功能基本穩定並可以嘗試放到生產環境下使用。因為其是auto sharding,即mongodb通過mongos 乙個自動分片模組...
如何對分布式系統進行測試
如何對分布式系統進行測試 問題摘要 目前分布式系統在產品上的應用比較多,相對而言分布式系統執行環境比較複雜。分布式的一些特點,例如,網路化 開放性 動態性 實時性,使得測試難度加大很多。當前,分布式系統測試的方法比較零散,其中有一些測試方法還有待提高。問題背景 有以下三個方面研究 非同步測試工具 時...