doug cutting
lucene(索引引擎)---nutch(搜尋data抓取)---hadoop
1997:lucene
2003:gfs
2004:ndfs\mapreduce\nutch
2006: (yahoo! facebook newyorktimes) hadoop
2008: hbase zookeeper mahout
2009: pig\ hive
hadoop生態系統:
common、hdfs、mapreduce**ro:序列化;
zookeeper:統一一致性;
hive:資料倉儲;
hbase:bigtable 結構化資料
mahout:資料探勘
x-rtime:社會網路
sqoop(sql to hadoop)
oozie:工作流引擎(有向無環)
pig、crosslow、ivory、chukwa+flume
j**a語言關鍵字:**同步synchronized,見:
jaxp(j**a api for xml processing)
sax:解析大檔案
dom:一次性讀入記憶體
靜態方法,如何訪問非靜態方法或元素:通過靜態媒介
hadoop原始碼關於配置檔案的類中,包含兩類resource和defaultresourses分別用來載入資源和預設資源(資源代表配置檔案),載入後並非立刻將配置檔案中的資源載入到properties和finalparameters中,而是通過呼叫loadresource。
adddefaultresource通過靜態成員registry(記錄了系統內的所有configuration物件,每個configuration物件在建立初就把自己新增到registry中)來載入。
hadoop的配置檔案支援xinclude機制:配置文件中包含其他的配置文件。
hadoop序列化框架(hadoop **ro),apache thrift,google protocol buffer等。
hadoop支援的壓縮格式包括:gzip zip bzip lzo
hadoop通過抽象工廠方法提供可擴充套件的框架
hadoop學習筆記1
hadoop是什麼?是乙個開源的分布式計算平台。解決兩個問題 1 海量資料的儲存 hdfs 分布式檔案系統 2 海量資料的分析 mapreduce 平行計算框架,離線 hadoop生態圈 hadoop ecosystem map hadoop核心 hdfs,mapreduce,yarn yet an...
Hadoop學習筆記1 初識Hadoop
資料越來越多,資料的增長越來越快,儲存和分析這些資料成為挑戰!當資料量逐漸變大時,單個磁碟的讀寫速度成為瓶頸。解決辦法是,將資料分散儲存,通過並行讀取提高讀寫資料。要達到這種目的,面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫 更多磁碟...
hadoop學習筆記1 概述
hdfs負責儲存 yarn負責排程和資源管理 mapreduce基於yarn 分布式儲存 計算 hadoop可以儲存海量資料,並且對資料進行統計分析,比如通過hive sql 類似於普通sql hadoop生態圈是很大的,想學好大資料,要學的東西特別多,目前從它三大元件開始 別的軟體圖示都是動物,只...