hdfs是apache hadoop 專案的乙個子專案.hadoop 非常適於儲存大型資料(比如tb 和pb),其就是使用hdfs作為儲存系統.hdfs使用多台計算機儲存檔案,並且提供統一的訪問介面,像是訪問乙個普通檔案系統一樣使用分布檔案系統。
儲存非常大的檔案:這裡非常大指的是幾百m、g或者tb級別,需要高吞吐量,對延時沒有要求。
採用流式的資料訪問方法:即一次寫入、多次讀取,資料集經常從資料來源生成或者拷貝一次,然後在其上做了很多分析工作。
執行於商業硬體上:hadoop 不需要特別貴的機器,可執行於普通廉價機器,可以節約成本。
需要高容錯性
為資料儲存提供所需的擴充套件能力。
hdfs由四部分組成,hdfs client、namenode 、datanode 和secondary namenode.
大資料處理技術 基礎介紹
1.5個v 1 volume 高容量 2 velocity 高速度 3 variety 多樣性 4 veracity 真實性 5 value 價值性 2.工作 1 儲存 2 管理 3 分析 這裡主要講這個 3.大資料分析 通過對大量資料進行分析,挖掘發現其中的模式和模型。1 valid 對新資料有效...
大資料系列文章 Hadoop基礎介紹(一)
大名鼎鼎的lucene nutch也是他弄出來的。他目前在cloudera公司擔任首席架構師工作。主 namenode節點儲存檔案元資料 從 datanode節點儲存檔案block資料 datanode與namenode保持心跳,提交block列表 這裡的心跳指的是datanode會週期性的給nam...
大資料介紹
大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...