hdfs的全稱是hadoop distributed file system易於擴充套件的分布式檔案儲存系統,執行在大量普通廉價機器上,提供容錯機制,為大量使用者提供效能不錯的檔案訪問服務 ,
它的設計目標是
自動快速檢測應對硬體錯誤
流式訪問資料
移動計算比移動資料本身更划算
簡單一致性模型
異構平台可移植
它的特點:包括優點和缺點兩個方面
優點:6. 高可靠性:hadoop按位儲存和處理資料的能力值得人們信賴;
7. 高擴充套件性:hadoop是在可用的計算機集簇間分配資料並完成計算任務的,這些集簇可以方便地擴充套件到數以千計的節點中。
8. 高效性:hadoop能夠在節點之間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。
9. 高容錯性:hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配。
缺點:10. 不適合低延遲資料訪問。
11. 無法高效儲存大量小檔案。
12. 不支援多使用者寫入及任意修改檔案。
hdfs的核心設計理念是
分而治之:將大檔案、大批量檔案,分布式存放在大量伺服器上,以便於採取分而治之的方式對海量資料進行運算分析;
它的重要特性包括
hdfs中的檔案在物理上是分塊儲存(block),塊的大小可以通過配置引數( dfs.blocksize)來規定,預設大小在hadoop2.x版本中是128m,老版本中是64m。
hdfs檔案系統會給客戶端提供乙個統一的抽象目錄樹,客戶端通過路徑來訪問檔案,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。
目錄結構及檔案分塊資訊(元資料)的管理由namenode節點承擔——namenode是hdfs集群主節點,負責維護整個hdfs檔案系統的目錄樹,以及每乙個路徑(檔案)所對應的block塊資訊(block的id,及所在的datanode伺服器)。
檔案的各個block的儲存管理由datanode節點承擔— datanode是hdfs集群從節點,每乙個block都可以在多個datanode上儲存多個副本(副本數量也可以通過引數設定dfs.replication)。
hdfs是設計成適應一次寫入,多次讀出的場景,且不支援檔案的修改 。
hdfs shell操作
hadoop 引數調優重點引數
yarn的引數調優,必調引數 28 yarn.nodemanager.resource.memory mb 預設為8192。每個節點可分配多少物理記憶體給yarn使用,考慮到節點上還 可能有其他程序需要申請記憶體,該值設定為物理記憶體總數 1.3比較合適,例如128g記憶體的節點可以分配100g 3...
hadoop基礎元件介紹
hadoop 的核心 hdfs hadoop distributed file system 分布式檔案系統 yarn yet another resource negotiator 資源管理排程系統 mapreduce 分布式運算框架 主從結構 主節點,namenode 從節點,有很多個 data...
hadoop元件概念理解
一 hadoop 二 hive 三 sqoop 1.來由和作用 sqoop由一些封裝好的mr程式的jar包構成,後演變成框架,但sqoop只有map任務沒有reduce任務。用於 hdfs hive hbase 和關係型資料庫rdbms之間資料的匯入匯出。2.匯入到hdfs過程 2.1 gather...