Hadoop 簡單概念記錄

2021-09-02 20:10:58 字數 711 閱讀 4077

hadoop的核心,hdfs 與 mapreduce

mapreduce 適合一次寫入、多次讀取資料的應用,關係型資料庫則更適合持續更新的資料。

mapreduce 的高階查詢語言(如:phoenix、pig、hive )

mapreduce 的核心特徵,資料本地化(data locality)。因此獲得良好的效能,並節省網路頻寬。

apache mahout 是乙個在hadoop上執行的機器學習類庫。(例如:分類和聚類演算法)

seti@home

資料模式:

資料訪問模式中包含大量的硬碟定址,進入等待階段。(關係型資料庫

而流資料讀取模式,主要取決於傳輸速率。(網路寬頻的大小) (hbase記憶體資料庫)

hbase表設計:

1、只允許建立少量<3 column family,hbase對多列族支援不好。

2、列族、列、單元格的名稱盡量簡短,增加hfile儲存效率,較少讀取的效能開銷。

hbase的rowkey設計:

1、長度越短越好 

2、確保唯一性 

3、業務訪問中權重高的key放在前面,做個字段拼接,類似關係型資料庫的聯合主鍵。

4、大資料,查詢條件多的時候,不使用:scan columnvaluefileter 很影響效能。

Hadoop基礎概念

狹義 hadoop軟體 hadoop.apache.org 廣義 hadoop生態圈 hive zookeeper spark 用2.x 3.x 需要踩坑 主要用cdh5.x 部署大資料環境 用的是 hadoop2.6.0 cdh5.7.0 ctrl f 搜尋 cdh5.7.0 hdfs 儲存 分布...

Hadoop基礎概念

hadoop模組組成 hdfs 用於儲存 可靠的,高吞量的分布式檔案系統 mapreduce 用於計算 分布式的離線平行計算框架 yarn 用於資源排程 作業排程與集群資源管理框架 common 支援其他模組的工具模組 檔案系統核心模組 hdfs的組成 namenode 集群當中的主節點,用於管理集...

hadoop概念特徵。

分布式計算 hadoop 與傳統資料庫對比 zookeeper hadoop架構 大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。volume 大資料量 90 的資料是過去兩年產生 velocity 速度快 資料增長速度快,時效性高 結構化資料 半結構化資料 非結構化...