1. 出現新的上下文介面:sparksession,統一了sqlcontext和hivecontext,並且為sparksession開發了新的流式呼叫的configuration api
2. 統一了dataframe和dataset。dataframe相當於dataset[row],以及dataset的增強聚合api
3. 增強了累加器accumulator的功能,支援web ui,便捷的api,效能更高
1. 支援sql2003標準
2. 支援ansi-sql 和hive ql的sql parser(sql解析器)
3. 支援ddl,支援子查詢(in/not in 、 exists/ not exists)
2. 通過vectorization(向量化)技術提公升parquet檔案的掃瞄吞吐量
3. 提公升orc檔案的讀寫效能
4. 提公升catalyst查詢優化器的效能
5. 通過native實現方式提公升視窗函式的效能
1. structured streaming在spark2.0中是測試版,2.0之後是released版,它基於sparksql和catalyst引擎構建,支援dataframe風格的api進行流式計算。
2. 基於dstream的api支援kafka0.10版本
1. 基於dataframe的api支援持久化儲存、載入模型、pipeline,支援更多的演算法,支援向量和矩陣使用效能更高的序列化機制。
2. spark r支援mllib演算法,包括線性回歸、樸素貝葉斯等
3. 未來spark mllib將主要基於dataset api來實現,基於rdd和api將轉為維護階段
1. 支援csv檔案
2. 支援hive風格的bucket表
3. 支援快取和程式執行的堆外記憶體管理
4. 完全移除了對akka的依賴
5. 使用scala2.11代替了scala2.10,要求基於scala2.11版本進行開發,而不是scala2.10
6. mesos粗粒度模式下,支援啟動多個executor
Spark Spark2 x版的新特性
1.出現新的上下文介面 sparksession,統一了sqlcontext和hivecontext,並且為sparksession開發了新的流式呼叫的configuration api 2.統一了dataframe和dataset。dataframe相當於dataset row 以及dataset...
Hadoop基礎(十四) HDFS 2 X新特性
1 scp實現兩個遠端主機之間的檔案複製 scp r hello.txt root hadoop103 user atguigu hello.txt 推 push scp r root hadoop103 user atguigu hello.txt hello.txt 拉 pull scp r r...
新手該學習Python2 x版本還是3 x版本
如果你是乙個初學者,或者你以前接觸過其他的程式語言,你可能不知道,在開始學習python的時候都會遇到乙個比較讓人很頭疼的問題 版本問題!是學習python2 還是學習 python3 這是非常讓人糾結的!搜尋一下便會發現python3 和 python2 是不相容的,而且差異比較大,到底學習哪個版...