0.發展
在hive公布源**之後
公司又公布了presto,這個比較快,是基於記憶體的。
impala:3s處理1pb資料。
1.hive 能做什麼,與 mapreduce 相比優勢在**
關於hive這個工具,
hive
學習成本低,入手快,對於熟悉
sql語法的人來說,操作簡單,熟悉。
其實,還有乙個,就是統一的資料管理,可與impala/spark等共享元資料。
2.為什麼說 hive 是 hadoop 資料倉儲,從【資料儲存和分析】方 面理解
對於有固定格式的檔案,使用hive把他儲存到
hdfs
上,然後使用
hive
操作這些資料,語句執行依賴hadoop,這就是
hive
的由來。
所以說,hive是建立在
hadoop
之上的。
下面具體說明一下:
1.hive構建在
hadoop
之上,所有的資料儲存在
hadoop
中hdfs上。
2.分析資料查詢資料都是講任務轉化為底層的mapreduce模板,在
hadoop
上執行。
3.執行的程式可以在yarn上執行。
正是因為hive是
hadoop
的資料倉儲,所以,也有了
hive
的其他特點:
1.優勢在於處理大資料
2.hive適合離線情況,所以延遲情況比較大。
3.擴張性較好,可以自定義資料型別
3.hive補充
將結構化的結構對映成表。
本質,將sql轉換成mapreduce,也算是hadoop的客戶端,不幹事情。
4. hive 架構,分為三個部分來理解,最好通過畫圖理解
hive分為
meta store
,hdfs
,client
三部分。
1.meta srore 是元資料,預設儲存在
derby
資料庫,建議修改配置時修改。
2.hdfs,說明
hive
的資料儲存在很多粉絲上。
3.client:使用者的介面是
cli。通過
jdbc
鏈結driver
驅動。
sql parser是sql解析器
query optimizer是優化器。
physical plan是物理計畫。
一步步執行,生成的物理計畫,儲存在hdfs 上,並隨後有
mapreduce
呼叫執行。
5.擴充套件性與靈活性
比較好,因為支援udf,自定義儲存格式。
同時,可以擴充套件集群規模。
6.總結
構建在hadoop之上的資料倉儲
使用hql作為查詢介面,使用hbase儲存,使用mapreduce進行計算。
線段樹2對於Pushdown的理解
最近才把這玩意兒搞出來,和解說如下 include includeusing namespace std const int n 100005 struct sd node n 2 int ini n root,cnt 0,q void buildtree int k,int l,int r els...
對架構的理解
架構,這是乙個很hight的詞,相關的定義網路上可以查詢得到,這裡我想表達的是基於自己對以前做過的系統,架構的通俗定義和自己的理解得出的總結。首先,架構是什麼?或者什麼是架構?架構就是一種指導思想。其次,架構的目的是什麼?目的就是為了讓自己根據思想指導下,使自己做的系統具有以下幾點基本特徵 a 可擴...
VS2010 對於CSS的公升級
隨著 asp.net 版本公升級,它新增了很多新的東西,像是範本化控制項 template based control,像是 gridview listview formview 等 導覽控制項 sitemap menu treeview ajax asp.net ajax 與 control to...