037 對於HIVE架構的理解

2021-09-08 22:39:29 字數 1594 閱讀 5057

0.發展

在hive公布源**之後

公司又公布了presto,這個比較快,是基於記憶體的。

impala:3s處理1pb資料。

1.hive  能做什麼,與 mapreduce 相比優勢在**

關於hive這個工具,

hive

學習成本低,入手快,對於熟悉

sql語法的人來說,操作簡單,熟悉。

其實,還有乙個,就是統一的資料管理,可與impala/spark等共享元資料。

2.為什麼說 hive 是 hadoop  資料倉儲,從【資料儲存和分析】方 面理解

對於有固定格式的檔案,使用hive把他儲存到

hdfs

上,然後使用

hive

操作這些資料,語句執行依賴hadoop,這就是

hive

的由來。

所以說,hive是建立在

hadoop

之上的。

下面具體說明一下:

1.hive構建在

hadoop

之上,所有的資料儲存在

hadoop

中hdfs上。

2.分析資料查詢資料都是講任務轉化為底層的mapreduce模板,在

hadoop

上執行。

3.執行的程式可以在yarn上執行。

正是因為hive是

hadoop

的資料倉儲,所以,也有了

hive

的其他特點:

1.優勢在於處理大資料

2.hive適合離線情況,所以延遲情況比較大。

3.擴張性較好,可以自定義資料型別

3.hive補充

將結構化的結構對映成表。

本質,將sql轉換成mapreduce,也算是hadoop的客戶端,不幹事情。

4. hive  架構,分為三個部分來理解,最好通過畫圖理解

hive分為

meta store

,hdfs

,client

三部分。

1.meta srore 是元資料,預設儲存在

derby

資料庫,建議修改配置時修改。

2.hdfs,說明

hive

的資料儲存在很多粉絲上。

3.client:使用者的介面是

cli。通過

jdbc

鏈結driver

驅動。

sql parser是sql解析器

query optimizer是優化器。

physical plan是物理計畫。

一步步執行,生成的物理計畫,儲存在hdfs 上,並隨後有

mapreduce

呼叫執行。

5.擴充套件性與靈活性

比較好,因為支援udf,自定義儲存格式。

同時,可以擴充套件集群規模。

6.總結

構建在hadoop之上的資料倉儲

使用hql作為查詢介面,使用hbase儲存,使用mapreduce進行計算。

線段樹2對於Pushdown的理解

最近才把這玩意兒搞出來,和解說如下 include includeusing namespace std const int n 100005 struct sd node n 2 int ini n root,cnt 0,q void buildtree int k,int l,int r els...

對架構的理解

架構,這是乙個很hight的詞,相關的定義網路上可以查詢得到,這裡我想表達的是基於自己對以前做過的系統,架構的通俗定義和自己的理解得出的總結。首先,架構是什麼?或者什麼是架構?架構就是一種指導思想。其次,架構的目的是什麼?目的就是為了讓自己根據思想指導下,使自己做的系統具有以下幾點基本特徵 a 可擴...

VS2010 對於CSS的公升級

隨著 asp.net 版本公升級,它新增了很多新的東西,像是範本化控制項 template based control,像是 gridview listview formview 等 導覽控制項 sitemap menu treeview ajax asp.net ajax 與 control to...