hadoop基礎入門知識

2021-08-01 10:37:26 字數 636 閱讀 7630

hadoop已經發展了10年了。

《hadoop技術詳解》

《hadoop權威指南》

google的大資料技術:mapreduce,tigtable,gfs

hadoop的優點:

(1)成本降級,能用pc機,就不用大型機和高階儲存

(2)軟體容錯硬體故障視為常態,通過軟體保證可靠性

(3)簡化並行分布式計算,無需控制節點同步和資料交換

hadoop:乙個模仿google大資料技術的開源實現

1.hadoop是什麼?

開源的,分布式儲存,分布式計算平台

2,核心

hdfs:分布式檔案系統,儲存海量的資料

mapreduce:並行處理框架,實現任務分解和排程

3,作用

搭建大型資料倉儲,pb級資料的儲存,處理,分析,統計等業務

4,優勢

高擴充套件低成本

成熟的生態圈(小工具)

5,小工具

hive

hbase  儲存結構化資料的分布式資料庫 

放棄了事物特性,追求更高的擴充套件(不同於傳統的關係型資料庫)

提供資料的隨記讀寫和實時訪問,實現對標資料的讀寫功能(區別於hdfs)

6.zookeeper-----管理員

Hadoop學習 三 Hadoop入門知識

hadoop主要由namenode和datanode組成。客戶機通過與namenode和datanode的互動訪問檔案系統。對namenode的容錯非常重要。hadoop集群的配置 設定好三颱虛擬機器,分別是node1,node2和node3。設定node1為namenode,在node1的core...

hadoop基礎知識

1.hadoop流 hadoop流提供了乙個api,允許使用者使用任何指令碼語言編寫map函式或reduce函式,hadoop流的關鍵是,它使用unix標準流作為程式與hadoop之間的介面。2.hadoop join 1 reduce側連線 2 map端連線 基於distributedcache的...

Hadoop基礎知識

hadoop 提供分布式的儲存 乙個檔案被拆分成很多個塊,並且以副本的方式儲存在各個節點中 和計算 是乙個分布式的系統基礎架構 使用者可以在不了解分布式底層細節的情況下使用 apache社群的頂級專案 x.apache.org,如 組成 優勢特點 擴充套件性 容錯性 海量資料儲存 工作機制 將檔案切...