Hadoop學習筆記（八）（SparkSQL概述）

hive:類似於sql的hive ql語言， sql==**換）==>mapreduce

spark：hive on spark ==> shark(hive on spark) shark翻譯成rdd元件

shark

僅僅只是把物理執行計畫從mr作業替換成spark作業

shark終止以後，產生了2個分支：

hive社群，原始碼是在hive中

spark社群，原始碼是在spark中

支援多種資料來源，多種優化技術，擴充套件性好很多

可以提供sql on hadoop的元件:

1）hive

sql ==> mapreduce

metastore ：元資料

sql：database、table、view

facebook

2）impala3）presto

facebook

京東sql

4）drill

sql，互動式

訪問：hdfs、rdbms、json、hbase、mongodb、s3、hive

5）spark sql

spark sql is apache spark's module for working with structured data.

sqldataframe/dataset api

metastore

訪問：hdfs、rdbms、json、hbase、mongodb、s3、hive ==> 外部資料來源

spark sql它不僅僅有訪問或者操作sql的功能，還提供了其他的非常豐富的操作：外部資料來源

、優化spark sql概述小結：

1）spark sql的應用並不侷限於sql；

2）訪問hive、json、parquet等檔案的資料；

3）sql只是spark sql的乙個功能而已；===> spark sql這個名字起的並不恰當

4）spark sql提供了sql的api、dataframe和dataset的api；

spark sql 架構（待完善...）

Hadoop學習筆記和總結（八）

目錄第八章 hdfs中元資料的管理 8.1 元資料 8.1.1 什麼是元資料？8.1.2 元資料儲存在 8.2 元資料的寫入機制 8.3 合併 checkpoint 8.3.1 元資料合併前 8.3.2 元資料合併 checkpoint 8.4 總結集群中各節點的作用 8.4.1 namenode...

Hadoop學習筆記 Hadoop初識

序言資訊化發展到當今，網際網路的資料量是不斷地增加，那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向，這也之所以產生了各種平台的雲計算。對於網際網路而言，大資料量可分為兩種第一大訪問量請求第二大資料量處理。大訪問量請求這個事應用端應該思考的問題，如何很好的處理大的訪問量，如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現，是乙個分布式儲存和分布式計算的框架，主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成，其中namenode相當於系統的元資料存放地，它是hadoop系統的神經中樞，而多個d...

Hadoop學習筆記（八）（SparkSQL概述）

Hadoop學習筆記和總結（八）

Hadoop學習筆記 Hadoop初識

Hadoop學習筆記

相關推薦