特點:hive是構建在hadoop之上的資料倉儲。資料儲存在hdfs上,資料計算用的mapreduce框架。使用者無需掌握mr的編寫,通過類sql語句即可自動生成查詢計畫。
主要內容:
接入入口 client cli beeline hiveserver2
metastore
metasotre serve/ metastore dababase
資料庫操作
資料載入
使用者擴充套件功能udf
分割槽和桶
和傳統資料庫的異同:
同:訪問和管理資料;提供類sql查詢語言;
異:可處理大規模資料;擴充套件性和容錯性非常強;不支付事務;
應用場景:
1.日誌分析:pv,uv統計;多維度資料分析
2.海量結構化資料離線分析
侷限:1.不是乙個oltp系統:響應時間慢;不能實時更新系統。
2.提供的sql表達能力有限:不支付迭代式計算;不支付複雜運算;
執行原理:
hql語句 -> cli語法檢查、編譯並優化,檢視引用表metastore,生成查詢計畫 -> yarn拿到hdfs上的資料,然後處理 -> 結果儲存到hdfs上 -> cli獲取最終的處理結果,並返回給使用者。
Ansible 基礎原理及特性
ansible概念 ansible是一種自動化運維工具,基於python語言編寫,集合了眾多運維工具 puppet cfengine chef func fabric 的優點,實現了批量系統配置 批量程式部署 批量執行命令等功能.是借助於 ssh實現遠端管理的工具 這只是其中所借助的協議之一,ssh...
hive中內部表及外部表特性差異
關鍵點 archive unarchive truncate merge concatenate命令只能在內部表上進行使用 drop操作將會刪除內部表的元資料及資料資訊,而對於外部表則僅僅刪除元資料資訊 acid的事務特性僅僅適用於內部表 查詢結果快取只適用於內部表 外部表的表約束只支援rely操作...
hive原理 未完。。
size medium hive就是乙個將hiveql 其實是sql的子集或者說一點點的超集 語句轉化為一系列可以在hadoop集群上執行的mr的工具,通常在客戶端執行 hive 命令 有ide,所以不用安裝hive啦 wink 然後輸入 sql 語句後,hive 將 sql 語句生成多個 mr 的...