檔案儲存:
hadoop hdfs
、tachyon
、kfs
離線計算:
hadoop mapreduce
、spark
流式、實時計算:
storm
、spark streaming、s4
、heron
k-v、
nosql
資料庫:
hbase
、redis
、mongodb
資源管理:
yarn
、mesos
日誌收集:
flume
、scribe
、logstash
、kibana
訊息系統:
kafka
、stormmq
、zeromq
、rabbitmq
查詢分析:
hive
、impala
、pig
、presto
、phoenix
、sparksql
、drill
、flink
、kylin
、druid
分布式協調服務:
zookeeper
集群管理與監控:
ambari
、ganglia
、nagios
、cloudera manager
資料探勘、機器學習:
mahout
、spark mllib
資料同步:
sqoop
任務排程:
oozie
大資料 YARN知識點簡介
系列文章 大資料 hadoop知識點簡介 大資料 yarn知識點簡介 大資料 spark知識點簡介 mapreduce 1.x存在的問題 主節點jobtracker帶多個幹活的從節點tasktracker,典型的一對多架構。客戶端先提交mapreduce作業到jobtracker,然後jobtrac...
大資料相關知識點記錄
1 apache druid 和 alibaba druid是兩個技術。apache druid是乙個為olap查詢需求而設計的開源大資料系統,druid提供低延時的資料插入,實時的資料查詢。簡單說,就是乙個資料庫系統。有乙個比其他資料庫系統好的特性是,預聚合。可以做max等計算操作。這個是比傳統關...
大資料測試的知識點
分類 1 功能性測試 2 非功能性測試 步驟 1 資料匯入 預處理驗證階段 2 mapreduce資料輸出驗證階段 3 驗證大資料etl到資料倉儲 4 驗證分析報告 方式 1 輸入檔案與原始檔進行比對,保證資料的一致性 2 根據資料需求來保證獲取資料的準確性 3 驗證檔案被正確的載入進hdfs,且被...