hive的初認識:
u起源自facebook由jeffhammerbacher領導的團隊
u構建在hadoop上的資料倉儲框架
uhive是構建在hadoop之上的資料倉儲平台
uhive是乙個sql解析引擎,它將sql語句轉譯成mapreduce作業並在hadoop上執行。
hive表是hdfs的乙個檔案目錄,乙個表名對應乙個目錄名,如果有分割槽表的話,則分割槽值對應子目錄名
資料的演進:
為什麼要用
hive:
當前資料分析者面臨的問題:
資料 日趨龐大,無論是入庫和查詢,都出現效能瓶頸(i/o)
使用者的應用和分析結果呈整合趨勢,對實時性和響應時間要求越來越高
使用的模型越來越複雜,計算量指數級上公升
解決方案:
l操作介面採用類sql語法,提供快速開發的能力
l避免了去寫mapreduce,減少開發人員的學習成本
l擴充套件功能很方便
l完美解決效能瓶頸,在可見未來不容易出現新瓶頸
hive和hadoop的關係:
與傳統資料的比較:
hive的缺點和未來:
l支援acid事務——使用者將可以插入、更新和刪除現有資料。hive將由傳統的一次寫入、頻繁讀取的系統發展為乙個支援變化資料分析的系統。
l實現亞秒級查詢——使用者可以將hive用於像互動式儀表板和**性分析這樣對響應時間有更高要求的應用場景。
l全面支援 sql:2011 analytics ——使用者可以使用標準sql在hive上部署複雜的報表,而且更快捷、更簡便、更可靠。而基於成本的、功能強大的優化器可以確保工具生成的查詢和複雜查詢的執行速度。屆時,hive將在hadoop上提供企業級sql使用者所享有的全部表達能力。它將在支援視窗函式、使用者自定義函式、子查詢、rollup、cube、標準聚集、內連線、外連線、半連線和交叉連線的基礎上,增加對不等連線、集合函式(並、交、差)、時間間隔型別等的支援。
泛型初認識
資料型別是每乙個程式設計人員都要認真研究的知識,這篇文章就來介紹一下菜鳥了解資料型別的 心酸 歷程。從開始接觸程式語言就有了資料型別,諸如int string boolean time float double 慢慢地有認識了實體型別,還有就是接下來的各種集合類。不管怎麼講他們都是由object型別...
雲計算初認識
雲計算是分布式計算的一種,是通過網路將乙個大的計算程式分解成多個小個計算程式,各個程式計算出結果返回。通過這項技術,可以在很短的時間內 幾秒種 完成對數以萬計的資料的處理,從而達到強大的網路服務。分布式計算技術 虛擬化技術 網路技術 伺服器技術 資料中心技術 雲計算平台技術 分布式儲存技術 hado...
Hive 談談你對Hive的認識
結合其他同學和自己的筆記總結如下 由於hive採用了sql的查詢語言hql,因此很容易將hive理解為資料庫。其實從結構上來看,hive和資料庫除了擁有類似的查詢語言,再無類似之處。本文將從多個方面來闡述hive和資料庫的差異。資料庫可以用在online的應用中,但是hive是為資料倉儲而設計的,清...