hive:類似於sql的hive ql語言, sql==**換)==>mapreduce
spark:hive on spark ==> shark(hive on spark) shark翻譯成rdd元件
shark
僅僅只是把物理執行計畫從mr作業替換成spark作業
shark終止以後,產生了2個分支:
hive社群,原始碼是在hive中
spark社群,原始碼是在spark中
支援多種資料來源,多種優化技術,擴充套件性好很多
可以提供sql on hadoop的元件:
1)hive
sql ==> mapreduce
metastore : 元資料
sql:database、table、view
2)impala3)presto
京東sql
4)drill
sql,互動式
訪問:hdfs、rdbms、json、hbase、mongodb、s3、hive
5)spark sql
spark sql is apache spark's module for working with structured data.
sqldataframe/dataset api
metastore
訪問:hdfs、rdbms、json、hbase、mongodb、s3、hive ==> 外部資料來源
spark sql它不僅僅有訪問或者操作sql的功能,還提供了其他的非常豐富的操作:外部資料來源
、優化spark sql概述小結:
1)spark sql的應用並不侷限於sql;
2)訪問hive、json、parquet等檔案的資料;
3)sql只是spark sql的乙個功能而已;===> spark sql這個名字起的並不恰當
4)spark sql提供了sql的api、dataframe和dataset的api;
spark sql 架構(待完善...)
Hadoop學習筆記和總結(八)
目錄 第八章 hdfs中元資料的管理 8.1 元資料 8.1.1 什麼是元資料?8.1.2 元資料儲存在 8.2 元資料的寫入機制 8.3 合併 checkpoint 8.3.1 元資料合併前 8.3.2 元資料合併 checkpoint 8.4 總結集群中各節點的作用 8.4.1 namenode...
Hadoop學習筆記 Hadoop初識
序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...
Hadoop學習筆記
hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...