大資料 學習hdfs

2021-09-12 11:40:55 字數 943 閱讀 3468

hdfs是什麼?

hadoop distributed file system,它是一種分布式檔案儲存系統,主要解決大資料的儲存問題。

hdfs的優缺點:

優點:缺點:hdfs的主要角色

namenode(簡稱nn):是hdfs的核心節點,最重要

主要功能是:接收客戶端的讀寫請求,接收datanode傳送的block位置資訊,儲存metadata元資料資訊。

hadoop1.x中只有乙個namenode,2.x中有兩個nn分別作為主備用以解決主從架構中的單點故障問題

secondarynamenode(簡稱snn):只有hadoop1.x中存在,它負責拉取nn節點上的edits+fsimage檔案合併,落地到磁碟形成fsimage.減少nn啟動時間,它不是nn的備份。

datanode(簡稱dn):

儲存資料,資料存放在dn中的block塊中。

啟動dn執行緒的時候會向namenode匯報block位置資訊

通過向nn傳送心跳保持與其聯絡(3秒一次),如果nn 10分鐘沒有收到dn的心跳,則認為其已經lost,並copy其上的block到其它dn

metadata:元資料資訊包含①檔案owership(歸屬)和permissions(許可權)

②檔案大小 時間

③block列表[偏移量]:即乙個完整檔案有哪些block

block:dn中存放資料的具體地方

hdfs讀寫檔案流程?

讀檔案

寫檔案:

大資料學習 關於hdfs

高容錯性 適合處理大資料 可構建在廉價機器上 不適合低延時資料訪問 無法高效的對大量小檔案進行儲存 儲存大量小檔案的話,它會占用namenode大量的記憶體來儲存檔案目錄和塊資訊。小檔案儲存的定址時間會超過讀取時間 不支援併發寫入 檔案隨機修改 乙個檔案只能有乙個寫,不允許多個執行緒同時寫 data...

獲取hdfs (大資料)HDFS

hdfs 是 hadoop 的分布式檔案系統,主要用於離線的大檔案資料資料儲存。hdfs 架構 hdfs 其實與作業系統的檔案系統類似,hdfs 主要有兩種角色,乙個是 namenode 檔案索引 另乙個是 datanode 儲存資料 namenode 主要負責記錄乙個檔案的儲存元資料 例如 檔名 ...

大資料學習Hdfs詳解1

hdfs架構設計 主從 nn 主 名稱節點 扮演老大的角色 snn 第二名稱節點 nn 扮演二把手的角色 dn 從 資料節點 扮演小弟的角色 dfs.blocksize 134217728 128m 不滿128m也算乙個塊 例如 hdfs site.xml下的引數dfs.replication 為1...