block和split的理解

2021-06-20 11:22:52 字數 296 閱讀 7280

兩者是從不同的角度來定義的:hdfs以固定大小的block為基本單位儲存資料(分布式檔案系統,實際儲存角度,物理儲存單位),而mapreduce以split作為處理單位(程式設計模型角度,邏輯單位)。

對於檔案中的一行記錄,可能會劃分到不同的block中,也可能劃分到不同的split中。

split是邏輯上的概念,它只包含一些元資料資訊,比如資料起始位置、資料長度、資料所在節點等,它的劃分方法完全由使用者自己決定。split的多少決定map task的數目,因為每個split交給乙個map task處理。

大小關係:>,=,《均有可能。

Hadoop的split和block的區別和聯絡

hadoop在預設的情況下,split和hdfs的block的大小是一樣的,這樣容易造成誤解認為兩者是一樣的,下面說下兩者的區別和聯絡 1.split是mapreduce裡的概念,是切片的概念,split是邏輯切片 而block是hdfs中切塊的大小,block是物理切塊 2.split的大小在預設...

Hadoop的split和block的區別和聯絡

hadoop在預設的情況下,split和hdfs的block的大小是一樣的,這樣容易造成誤解認為兩者是一樣的,下面說下兩者的區別和聯絡 split是mapreduce裡的概念,是切片的概念,split是邏輯切片 而block是hdfs中切塊的大小,block是物理切塊 split的大小在預設的情況下...

inode和block的理解

什麼是inode和block?所謂的inode就是索引節點 index node 的意思,在每乙個儲存裝置被格式化建立檔案系統後,所有的檔案大致被分為了兩部分,分別是inode和block。其中inode用來儲存檔案屬性資訊,其中包括了檔案大小,檔案的歸屬者,檔案的歸屬組,許可權,型別,修改時間,以...