Hadoop學習筆記(八)(SparkSQL概述)

2021-08-30 02:45:03 字數 1211 閱讀 3359

hive:類似於sql的hive ql語言, sql==**換)==>mapreduce

spark:hive on spark ==> shark(hive on spark) shark翻譯成rdd元件

shark

僅僅只是把物理執行計畫從mr作業替換成spark作業

shark終止以後,產生了2個分支:

hive社群,原始碼是在hive中

spark社群,原始碼是在spark中

支援多種資料來源,多種優化技術,擴充套件性好很多

可以提供sql on hadoop的元件:

1)hive

sql ==> mapreduce

metastore : 元資料

sql:database、table、view

facebook

2)impala3)presto

facebook

京東sql

4)drill

sql,互動式

訪問:hdfs、rdbms、json、hbase、mongodb、s3、hive

5)spark sql

spark sql is apache spark's module for working with structured data.

sqldataframe/dataset api

metastore

訪問:hdfs、rdbms、json、hbase、mongodb、s3、hive  ==> 外部資料來源

spark sql它不僅僅有訪問或者操作sql的功能,還提供了其他的非常豐富的操作:外部資料來源

、優化spark sql概述小結:

1)spark sql的應用並不侷限於sql;

2)訪問hive、json、parquet等檔案的資料;

3)sql只是spark sql的乙個功能而已;===> spark sql這個名字起的並不恰當

4)spark sql提供了sql的api、dataframe和dataset的api;

spark sql 架構(待完善...)

Hadoop學習筆記和總結(八)

目錄 第八章 hdfs中元資料的管理 8.1 元資料 8.1.1 什麼是元資料?8.1.2 元資料儲存在 8.2 元資料的寫入機制 8.3 合併 checkpoint 8.3.1 元資料合併前 8.3.2 元資料合併 checkpoint 8.4 總結集群中各節點的作用 8.4.1 namenode...

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...