短時間內快速的產生海量的多種多樣的有價值的資料
分布式儲存
分布式儲存簡單的來說,就是將資料分散儲存到多個儲存伺服器上,並將這些分散的儲存資源構成乙個虛擬的儲存裝置。
分布式儲存架構由三個部分組成:客戶端、元資料伺服器和資料伺服器。客戶端負責傳送讀寫請求,快取檔案元資料和檔案資料。元資料伺服器負責管理元資料和處理客戶端的請求,是整個系統的核心元件。資料伺服器負責存放檔案資料,保證資料的可用性和完整性。
分布式計算
元資料處理方式:
1.分布式批處理
攢一段時間的資料,然後在未來某乙個時間來處理這些資料。
2.分布式流處理(實時處理)
資料不積攢,每產生一條資料,立即對這條資料進行處理。
client: 客戶端提交檔案到hdfs中儲存,將大檔案切割成乙個個block
namenode:管理資料塊對映;處理客戶端的讀寫請求;配置副本策略;管理hdfs的命名空間;包含了block的位置資訊;每乙個datanode的位置資訊,datanode的心跳資訊;檔案的屬性、許可權、上傳時間。
secondarynamenode:是namenode的跟班,分擔namenode的工作量;模擬執行edits檔案,合併fsimage和fsedits然後再發給namenode。
datanode:負責儲存client發來的資料塊block;執行資料塊的讀寫操作。
rack:機架
fsimage:檔案系統的目錄樹
edits:針對檔案系統做的修改操作記錄
namenode記憶體中儲存的是=fsimage+edits。
secondarynamenode負責定時預設1小時,從namenode上,獲取fsimage和edits來進行合併,然後再傳送給namenode。減少namenode的工作量。所以講secondarynamenode,單獨放置到一台機器上,可以增大冗餘,但是有可能會丟失一小時內處理的資料。
nodename返回給client一批位址後,這些dataname之間會形成乙個pipeline管道
namenode元資料,在記憶體中不穩定,可以將資料持久化到磁碟上。
並非所有的元資料都會持久化,除了block位置資訊,其他元素都會持久化。
1.第乙個block儲存在負載不是很高的乙個伺服器上
2.第1個備份的block儲存在與第乙個block不同的機架隨機一條伺服器上
3.第2個備份在與第乙個備份相同的機架隨即一台伺服器。
大資料初學者怎樣學習?
很多人都知道 大資料很火,就業很好,薪資很高,想往大資料方向發展。但該學哪些技術,學習路線是什麼樣的呢?用不用參加大資料培訓呢?如果自己很迷茫,為了這些原因想往大資料方向發展,也可以,那麼大講台老師就想問一下,你的專業是什麼,對於計算機 軟體,你的興趣是什麼?是計算機專業,對作業系統 硬體 網路 伺...
萌新初學大資料「辛酸」記(二)
2018年7月13日 地點 長沙 天氣 多雲 今天繼續學習大資料技術的原理和應用,在剛開始接觸的大資料,需要花多一點的時間將大資料的概述以及歷史多加了解。這樣在後續學習當中更加透徹與深入理解。資料的產生方式的變革促成大資料時代的來臨,大資料的產生方式經歷了三個階段 1.運營式系統階段 人類社會最早大...
初學者看大資料生態圈
先從hadoop說起。仔細想下,有點道理 如果只是作為業務層面的開發者,對於大資料技術而言,確實只學spark就可以了,但是如果是系統架構師的話,hadoop還是要學的,因為作為大資料的系統架構師,沒辦法迴避hadoop。hadoop的三個概念元件,spark在這裡主要替代的是mapreduce,y...