Hadoop基礎知識

2021-09-24 20:55:37 字數 654 閱讀 8345

hadoop: 提供分布式的儲存(乙個檔案被拆分成很多個塊,並且以副本的方式儲存在各個節點中)和計算

是乙個分布式的系統基礎架構:使用者可以在不了解分布式底層細節的情況下使用

apache社群的頂級專案:***x.apache.org,如:

組成:

優勢特點:擴充套件性、容錯性、海量資料儲存

工作機制:將檔案切分成指定大小的資料塊並以多副本的方式儲存在機器上

檔案、塊、副本:

檔案:test 200m

塊(block):預設的blocksize是128m,2個塊:128m+72m

副本:hdfs預設3副本

node1 : blk1

node2 : blk2

node3 : blk1 blk2

node4 : blk1

node5 : blk2

如果node1無法正常工作,blk1在node3、4上仍然存在,可正常工作。

特點:擴充套件性、容錯性、海量資料離線處理

特點:擴充套件性、容錯性、多框架資源統一排程

hadoop基礎知識

1.hadoop流 hadoop流提供了乙個api,允許使用者使用任何指令碼語言編寫map函式或reduce函式,hadoop流的關鍵是,它使用unix標準流作為程式與hadoop之間的介面。2.hadoop join 1 reduce側連線 2 map端連線 基於distributedcache的...

Hadoop 基礎知識

hadoop 資料是儲存在hdfs,mapreduce 是一種計算框架,負責計算處理。hdfs上的資料儲存預設是本地節點資料乙份,同一機架不同節點乙份,不同機架不同節點乙份。預設是儲存3份 hdfs 儲存元資料資訊和儲存位置資訊,metadata。他們之間是通過檔名進行關聯的。datanode 節點...

Hadoop的基礎知識

src.tar.gz 是壓縮後的原始碼檔案,需要自己編譯才能安裝 src.tar.gz.mds 是 src.tar.gz 的校驗和 checksum 檔案 tar.gz 是經過壓縮的編譯好的安裝檔案 tar.gz.mds 是 tar.gz 的 checksum 檔案 一般用於linux安裝hadoo...