Hadoop學習筆記（1）

doug cutting

lucene（索引引擎）---nutch（搜尋data抓取）---hadoop

1997:lucene

2003:gfs

2004:ndfs\mapreduce\nutch

2006: (yahoo! facebook newyorktimes) hadoop

2008: hbase zookeeper mahout

2009: pig\ hive

hadoop生態系統：

common、hdfs、mapreduce

**ro：序列化；

zookeeper：統一一致性；

hive：資料倉儲；

hbase：bigtable 結構化資料

mahout：資料探勘

x-rtime：社會網路

sqoop（sql to hadoop）

oozie：工作流引擎（有向無環）

pig、crosslow、ivory、chukwa+flume

j**a語言關鍵字：**同步synchronized，見：

jaxp（j**a api for xml processing）

sax：解析大檔案

dom：一次性讀入記憶體

靜態方法，如何訪問非靜態方法或元素：通過靜態媒介

hadoop原始碼關於配置檔案的類中，包含兩類resource和defaultresourses分別用來載入資源和預設資源（資源代表配置檔案），載入後並非立刻將配置檔案中的資源載入到properties和finalparameters中，而是通過呼叫loadresource。

adddefaultresource通過靜態成員registry（記錄了系統內的所有configuration物件，每個configuration物件在建立初就把自己新增到registry中）來載入。

hadoop的配置檔案支援xinclude機制：配置文件中包含其他的配置文件。

hadoop序列化框架（hadoop **ro），apache thrift，google protocol buffer等。

hadoop支援的壓縮格式包括：gzip zip bzip lzo

hadoop通過抽象工廠方法提供可擴充套件的框架

hadoop學習筆記1

hadoop是什麼？是乙個開源的分布式計算平台。解決兩個問題 1 海量資料的儲存 hdfs 分布式檔案系統 2 海量資料的分析 mapreduce 平行計算框架，離線 hadoop生態圈 hadoop ecosystem map hadoop核心 hdfs，mapreduce，yarn yet an...

Hadoop學習筆記1 初識Hadoop

資料越來越多，資料的增長越來越快，儲存和分析這些資料成為挑戰！當資料量逐漸變大時，單個磁碟的讀寫速度成為瓶頸。解決辦法是，將資料分散儲存，通過並行讀取提高讀寫資料。要達到這種目的，面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫更多磁碟...

hadoop學習筆記1 概述

hdfs負責儲存 yarn負責排程和資源管理 mapreduce基於yarn 分布式儲存計算 hadoop可以儲存海量資料，並且對資料進行統計分析，比如通過hive sql 類似於普通sql hadoop生態圈是很大的，想學好大資料，要學的東西特別多，目前從它三大元件開始別的軟體圖示都是動物，只...

Hadoop學習筆記（1）

hadoop學習筆記1

Hadoop學習筆記1 初識Hadoop

hadoop學習筆記1 概述

相關推薦