分布式如何進行解決大資料的儲存與計算問題個人理解

2021-10-11 02:44:25 字數 980 閱讀 9322

實時架構:以資料生成為單位處理資料

資料種類的多樣化

問題2:如何解決資料大無法儲存或者計算的問題?

定義:就是將多台機器的資源【集群】在邏輯上合併成==乙個整體==,通過分布式的軟體,提供分布式的服務

過程

step3:分布式服務將若干個小的任務分配給多台機器共同執行,每台機器處理不同的小任務

step4:當使用者需要獲取結果時,要將所有小任務的結果進行合併,返回最終結果

舉例 分布式服務將這個三個5tb的塊,儲存到三颱機器,每台機器儲存5tb

當使用者讀取這個檔案,向分布式服務請求讀取,分布式服務要根據當初這個檔案拆分的三個塊合併,返回給使用者

計算

將三個task分配給三颱機器來執行計算

啟動task4將三颱機器的結果進行合併

將最後結果返回給使用者

問題3:分布式解決了什麼問題?

問題4:分布式的通用架構是什麼樣的?【不包括zookeeper】

接客:接受客戶端的請求

不同分布式從節點的程序名稱都不一樣:leader、namenode,resourcemanager、master……

從節點:負責管理每一台機器自己的資源

問題5:分布式架構中存在問題?

問題6:zookeeper如何解決分布式的兩個問題?

問題:主節點單點故障問題

問題:如何決定誰是工作誰是備份?

zookeeper:解決分布式存在的問題

所有分布式框架,要麼利用zk解決分布式問題,要麼自己實現類似zk的解決方案

問題7:zookeeper自己也是分布式的,它的問題需要自己解決?

問題:zk如何保證每台機器的內容是一致的?

問題:如果leader故障怎麼辦?

問題:如果leader故障怎麼辦?

[外鏈轉存中…(img-l9kyu1r2-1606877554427)]

HDFS分布式儲存有什麼優勢 如何進行資料儲存

hdfs分布式儲存有什麼優勢?如何進行資料儲存 在面對資料海量增長時,雖然使用者生成的資料是網路最有價值的資產,但網際網路使用者自己幾乎無法控制這些資料 資料儲存 資料所有權都高度集中,今天的網際網路生態系統使得少數公司攫取極高的利潤,平台之間相互兼併,對於使用者資料則是肆無忌憚的 分享 導致終端使...

基於MongoDB進行分布式資料儲存的步驟

本文是研究mongodb分布式資料儲存的副產品,通過本文的相關步驟可以將乙個大表中的資料分布到幾個mongo伺服器上。mongodb的1.6版本中auto sharding功能基本穩定並可以嘗試放到生產環境下使用。因為其是auto sharding,即mongodb通過mongos 乙個自動分片模組...

如何對分布式系統進行測試

如何對分布式系統進行測試 問題摘要 目前分布式系統在產品上的應用比較多,相對而言分布式系統執行環境比較複雜。分布式的一些特點,例如,網路化 開放性 動態性 實時性,使得測試難度加大很多。當前,分布式系統測試的方法比較零散,其中有一些測試方法還有待提高。問題背景 有以下三個方面研究 非同步測試工具 時...