說起大資料生態體系的起源,不得不提doug cutting,這位大資料技術始祖級的人物,在google的影響下為我們帶來了大資料生態體系中最原始也最重要的部分—hadoop。
doug cutting,上圖居中著,身高一公尺八往上,其貌不揚,為人謙遜,因其兒子喜歡的玩具為技術發明命名。
1985,畢業於史丹福大學。dc先生研發hadoop,其靈感**於google發表的兩篇**。gfs是google最初使用的分布式檔案系統。mapreduce最早是由google研究提出的一種面向大規模資料處理的平行計算模型和方法,其初衷主要是為了解決搜尋引擎中大規模網頁資料的並行化處理。由於mapreduce可以普遍應用於很多大規模資料的計算問題,google進一步將其廣泛應用於很多大規模資料處理問題。到目前為止,google有上萬個各種不同的演算法問題和程式都使用mapreduce進行處理。1997,發布lucene,第乙個全文文字搜尋開源函式庫(流行搜尋引擎solr和elasticsearch的基石)。
2010,當選apache software foundation主席。
2015,被o』reilly授予open source award榮譽。(同樣被授獎的還有ceph作者、nodejs作者等,開源人士夢寐以求的大獎)
google的**發表不久,2023年,dc基於google的gfs和mapreduce開始研究如何使網頁評分演算法執行速度更快的方式。2006,發布hadoop,同年加入yahoo,yahoo強大的研發陣容為dc的研究提供了強大的保障。2008,發布計算網頁間鏈結關係的webmap演算法,在相同的硬體環境下,基於hadoop的webmap的反應速度是之前系統的33倍。
google**題目
發表年份
the google file system
2003
mapreduce: simplified data processing on large clusters
2004
2023年,是真正大資料技術生態的元年,其標誌就是hadoop的誕生,這時的生態由hadoop的通用基礎庫、分布式檔案系統hdfs(hadoop distributed file system)和計算框架mapreduce構成,如下圖所示。
此後,圍繞hadoop核心,其他大資料元件如雨後春筍般地出現,相繼進入大資料生態體系,
hive來了,mr程式設計模型**太多,將傳統mr的實現抽象成程式設計師最熟悉的sql;
spark來了,mr計算中間結果存放在磁碟上,多次io效率低下,spark將中間計算結果放入記憶體,將計算速度提公升了兩個量級;
hbase來了,傳統資料庫無法動態增加字段,無法解決表稀疏問題,hbase為此而生
……每一種大資料元件都有其解決的問題,每一種元件互相配合、相輔相成、爭奇鬥艷,發展到後期2023年元件達到了100多種,在計算機技術領域裡,型別如此之多、數量如此之大,恐獨此乙份了!最全大資料生態圖見下:
大資料入門之Hadoop生態系統概述
近些年來,大資料這個詞頻繁出現在我們的生活中。那麼大資料到底是什麼呢,讓我們一起來看一下。通俗來說。大資料是乙個概念也是一門技術,是在以hadoop為代表的大資料平台框架上進行各種資料分析的技術。大資料報括了以hadoop和spark為代表的基礎大資料框架。還包括了資料探勘 資料分析 實時資料處理 ...
大資料生態
目前而言,不收費的hadoop版本主要有三個 均是國外廠商 分別是 apache 最原始的版本,所有發行版均基於這個版本進行改進 cloudera版本 cloudera s distribution including apache hadoop,簡稱cdh hortonworks版本 horton...
大資料時代之hadoop 了解hadoop資料流
了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...