關於Spark和Spark的學習資料

hadoop社群依然發展迅速，2023年推出了2.3，2.4, 2.5

的社群版本，比如增強 resource manager ha, yarn rest api, acl on hdfs, 改進 hdfs 的 web ui…

hadoop roadmap

根據我的觀察，主要更新在yarn，hdfs，而mapreduce幾乎停滯了，還有一些feature 屬於安全，穩定可靠性一方面是比較穩定了，但也可以說是瓶頸了。

apache hadoop project members

這個是hadoop project member and committee, 裡面好多來自hortonworks，也有不少國人上榜。

sparkspark 介紹

spark今年大放溢彩，spark簡單說就是記憶體計算（包含迭代式計算，dag計算,流式計算）框架，之前mapreduce因效率低下大家經常嘲笑，而spark的出現讓大家很清新。

其實起名字也很重要，spark就佔了先機，cto說where there』s spark there』s fire: the state of apache spark in 2014

spark 起源

2023年berkeley amplab，發表在hotcloud

是乙個從學術界到工業界的成功典範，也吸引了頂級vc：andreessen horowitz的注資

amplab這個實驗室非常厲害，做大資料，雲計算，跟工業界結合很緊密，之前就是他們做mesos，hadoop online, crowddb, twitter，linkedin等很多知名公司都喜歡從berkeley找人，比如twitter也專門開了門課程 analyzing big data with twitter

還有個bdas

(bad ass)引以為傲: the lab that created spark wants to speed up everything, including cures for cancer

在2023年，這些大牛從berkeley amplab出去成立了databricks，半年就做了2次summit參會1000人，引無數hadoop大佬盡折腰，大家看一下summit的sponsor ，所有hadoop廠商全來了，並且各個技術公司也在巴結，cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根據cto說 spark新增**量活躍度今年遠遠超過了hadoop本身，要推出商業化產品cloud。

spark人物

spark基本概念

rdd——resillient distributed dataset a fault-tolerant abstraction for in-memory cluster computing彈性分布式資料集。

operation——作用於rdd的各種操作分為transformation和action。

job——作業，乙個job包含多個rdd及作用於相應rdd上的各種operation。

stage——乙個作業分為多個階段。

partition——資料分割槽，乙個rdd中的資料可以分成多個不同的區。

dag——directed acycle graph，有向無環圖，反應rdd之間的依賴關係。

narrow dependency——窄依賴，子rdd依賴於父rdd中固定的data partition。

wide dependency——寬依賴，子rdd對父rdd中的所有data partition都有依賴。

caching managenment——快取管理，對rdd的中間計算結果進行快取管理以加快整體的處理速度。

目前還有一些子專案，比如 spark sql, spark streaming

, mllib, graphx 工業界也引起廣泛興趣，國內taobao, baidu也開始使用：powered by spark

apache spark支援4種分布式部署方式，分別是amazon ec2, standalone、spark on mesos和 spark on yarn 比如aws

spark summit

10月份還有個培訓在灣區的培訓，只不過3天就要1500刀，看來做個講師也不錯:)

第三方專案

相關參考資料

關於Spark和Spark的學習資料

spark關於分割槽和sortBy的學習

spark關於分割槽和sortBy的學習

從0開始學spark

關於Spark和Spark的學習資料

spark關於分割槽和sortBy的學習

spark關於分割槽和sortBy的學習

從0開始學spark

相關推薦