hadoop社群依然發展迅速,2023年推出了2.3,2.4, 2.5
的社群版本,比如增強 resource manager ha, yarn rest api, acl on hdfs, 改進 hdfs 的 web ui…
hadoop roadmap
根據我的觀察,主要更新在yarn,hdfs,而mapreduce幾乎停滯了,還有一些feature 屬於安全,穩定可靠性一方面是比較穩定了,但也可以說是瓶頸了。
apache hadoop project members
這個是hadoop project member and committee, 裡面好多來自hortonworks,也有不少國人上榜。
sparkspark 介紹
spark今年大放溢彩,spark簡單說就是記憶體計算(包含迭代式計算,dag計算,流式計算 )框架,之前mapreduce因效率低下大家經常嘲笑,而spark的出現讓大家很清新。
其實起名字也很重要,spark就佔了先機,cto說where there』s spark there』s fire: the state of apache spark in 2014
spark 起源
2023年berkeley amplab,發表在hotcloud
是乙個從學術界到工業界的成功典範,也吸引了頂級vc:andreessen horowitz的 注資
amplab這個實驗室非常厲害,做大資料,雲計算,跟工業界結合很緊密,之前就是他們做mesos,hadoop online, crowddb, twitter,linkedin等很多知名公司都喜歡從berkeley找人,比如twitter也專門開了門課程 analyzing big data with twitter
還有個bdas
(bad ass)引以為傲: the lab that created spark wants to speed up everything, including cures for cancer
在2023年,這些大牛從berkeley amplab出去成立了databricks,半年就做了2次summit參會1000人,引無數hadoop大佬盡折腰,大家看一下summit的sponsor ,所有hadoop廠商全來了,並且各個技術公司也在巴結,cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根據cto說 spark新增**量活躍度今年遠遠超過了hadoop本身,要推出商業化產品cloud。
spark人物
spark基本概念
rdd——resillient distributed dataset a fault-tolerant abstraction for in-memory cluster computing彈性分布式資料集。
operation——作用於rdd的各種操作分為transformation和action。
job——作業,乙個job包含多個rdd及作用於相應rdd上的各種operation。
stage——乙個作業分為多個階段。
partition——資料分割槽, 乙個rdd中的資料可以分成多個不同的區。
dag——directed acycle graph,有向無環圖,反應rdd之間的依賴關係。
narrow dependency——窄依賴,子rdd依賴於父rdd中固定的data partition。
wide dependency——寬依賴,子rdd對父rdd中的所有data partition都有依賴。
caching managenment——快取管理,對rdd的中間計算結果進行快取管理以加快整 體的處理速度。
目前還有一些子專案,比如 spark sql, spark streaming
, mllib, graphx 工業界也引起廣泛興趣,國內taobao, baidu也開始使用:powered by spark
apache spark支援4種分布式部署方式,分別是amazon ec2, standalone、spark on mesos和 spark on yarn 比如aws
spark summit
10月份還有個培訓在灣區的培訓,只不過3天就要1500刀,看來做個講師也不錯:)
第三方專案
相關參考資料
spark關於分割槽和sortBy的學習
首次學習spark時,對分割槽沒有直觀的了解,在使用sortby方式時也不能得預期的結果,通過實踐了解spark分割槽和sortby的原理 val sc new sparkcontext conf master設定為 local 4 利用4個執行緒 executor 來測試,模擬分布式環境 val ...
spark關於分割槽和sortBy的學習
學習目的 首次學習spark時,對分割槽沒有直觀的了解,在使用sortby方式時也不能得預期的結果,通過實踐了解spark分割槽和sortby的原理 partitionindex1 26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45...
從0開始學spark
參考 local 模式 即單機模式,這種安裝加壓即可,具體安裝方法穿插在 standalone 模式 standalone 模式 即搭建 spark 集群,但不與其他框架整合,如 yarn,此時 spark 執行在集群中 基於 yarn 的 spark 集群部署 yarn 集群 spark 集群,此...