hadoop學習筆記1

2021-08-10 08:25:44 字數 390 閱讀 6414

hadoop是什麼?是乙個開源的分布式計算平台。解決兩個問題:1、海量資料的儲存(hdfs  分布式檔案系統)   2、海量資料的分析(mapreduce   平行計算框架,離線)

hadoop生態圈(hadoop ecosystem map)

hadoop核心:hdfs,mapreduce,yarn(yet another resource negotiator資源管理排程系統)

yarn產生背景:

1、直接源於mrv1在幾方面的無能

1、擴充套件受限

2、單點故障

3、難以支援mr之外的計算

2、多計算框架各自為戰,資料共享困難

1、mr離線計算框架

2、storm實時計算框架

3、spark記憶體計算框架

Hadoop學習筆記(1)

doug cutting lucene 索引引擎 nutch 搜尋data抓取 hadoop 1997 lucene 2003 gfs 2004 ndfs mapreduce nutch 2006 yahoo facebook newyorktimes hadoop 2008 hbase zooke...

Hadoop學習筆記1 初識Hadoop

資料越來越多,資料的增長越來越快,儲存和分析這些資料成為挑戰!當資料量逐漸變大時,單個磁碟的讀寫速度成為瓶頸。解決辦法是,將資料分散儲存,通過並行讀取提高讀寫資料。要達到這種目的,面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫 更多磁碟...

hadoop學習筆記1 概述

hdfs負責儲存 yarn負責排程和資源管理 mapreduce基於yarn 分布式儲存 計算 hadoop可以儲存海量資料,並且對資料進行統計分析,比如通過hive sql 類似於普通sql hadoop生態圈是很大的,想學好大資料,要學的東西特別多,目前從它三大元件開始 別的軟體圖示都是動物,只...