037 對於HIVE架構的理解

0.發展

在hive公布源**之後

公司又公布了presto，這個比較快，是基於記憶體的。

impala：3s處理1pb資料。

1.hive 能做什麼，與 mapreduce 相比優勢在**

關於hive這個工具，

hive

學習成本低，入手快，對於熟悉

sql語法的人來說，操作簡單，熟悉。

其實，還有乙個，就是統一的資料管理，可與impala/spark等共享元資料。

2.為什麼說 hive 是 hadoop 資料倉儲，從【資料儲存和分析】方面理解

對於有固定格式的檔案，使用hive把他儲存到

hdfs

上，然後使用

hive

操作這些資料，語句執行依賴hadoop，這就是

hive

的由來。

所以說，hive是建立在

hadoop

之上的。

下面具體說明一下：

1.hive構建在

hadoop

之上，所有的資料儲存在

hadoop

中hdfs上。

2.分析資料查詢資料都是講任務轉化為底層的mapreduce模板，在

hadoop

上執行。

3.執行的程式可以在yarn上執行。

正是因為hive是

hadoop

的資料倉儲，所以，也有了

hive

的其他特點：

1.優勢在於處理大資料

2.hive適合離線情況，所以延遲情況比較大。

3.擴張性較好，可以自定義資料型別

3.hive補充

將結構化的結構對映成表。

本質，將sql轉換成mapreduce，也算是hadoop的客戶端，不幹事情。

4. hive 架構，分為三個部分來理解，最好通過畫圖理解

hive分為

meta store

，hdfs

，client

三部分。

1.meta srore 是元資料，預設儲存在

derby

資料庫，建議修改配置時修改。

2.hdfs，說明

hive

的資料儲存在很多粉絲上。

3.client：使用者的介面是

cli。通過

jdbc

鏈結driver

驅動。

sql parser是sql解析器

query optimizer是優化器。

physical plan是物理計畫。

一步步執行，生成的物理計畫，儲存在hdfs 上，並隨後有

mapreduce

呼叫執行。

5.擴充套件性與靈活性

比較好，因為支援udf，自定義儲存格式。

同時，可以擴充套件集群規模。

6.總結

構建在hadoop之上的資料倉儲

使用hql作為查詢介面，使用hbase儲存，使用mapreduce進行計算。

線段樹2對於Pushdown的理解

最近才把這玩意兒搞出來，和解說如下 include includeusing namespace std const int n 100005 struct sd node n 2 int ini n root,cnt 0,q void buildtree int k,int l,int r els...

對架構的理解

架構，這是乙個很hight的詞，相關的定義網路上可以查詢得到，這裡我想表達的是基於自己對以前做過的系統，架構的通俗定義和自己的理解得出的總結。首先，架構是什麼？或者什麼是架構？架構就是一種指導思想。其次，架構的目的是什麼？目的就是為了讓自己根據思想指導下，使自己做的系統具有以下幾點基本特徵 a 可擴...

VS2010 對於CSS的公升級

隨著 asp.net 版本公升級，它新增了很多新的東西，像是範本化控制項 template based control，像是 gridview listview formview 等導覽控制項 sitemap menu treeview ajax asp.net ajax 與 control to...

037 對於HIVE架構的理解

線段樹2對於Pushdown的理解

對架構的理解

VS2010 對於CSS的公升級

相關推薦