hive是什麼:
hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映成一張表,並提供類sql查詢功能;其本質是將hql轉化成mapreduce程式。靈活性和擴充套件性比較好:支援udf,自定義儲存格式等:
適合離線資料處理
hive體系結構:
hive的資料儲存基於hdfs,其沒有專門的資料儲存格式,主要的儲存結構主要包括:資料庫,檔案,表,檢視,索引。hive預設可以直接載入文字檔案(textfile),還支援sequencefile,rcfile。建立表時指定hive資料的列分隔符與行分隔符即可解析資料。
元資料:metastore
hadoop
驅動器:driver(包含解析器,編譯器,優化器,執行器)
hive四種表型別
1.分割槽表
- 最常用
- 可以按時間日期進行分割槽
2.內部表(管理表)
- 一般建立臨時表使用內部表
- 建立的時候如果不指定是外部表,預設就是內部表
- 刪除表會將資料一併刪除
3.外部表(託管表)
- 推薦使用此方式建立表
- 建立的時候需要使用關鍵字(external)宣告
- 刪除表的時候只會刪除表結構不會刪除資料
4.桶表
- 不常用
- 桶表專門用於抽樣查詢,是很專業性的
- 不是日常用來儲存資料的表,需要抽樣查詢時,才建立和使用桶表。
hive 優點與使用場景
優點:
使用場景:
資料倉儲,什麼是資料倉儲?
資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...
大資料資料倉儲Hive概述
1.hive產生背景 1 mapreduce的不便性 2 hdfs上的檔案缺少schema 2.hive是什麼?1 由facebook開源的,最初用於解決海量結構化的日誌資料統計問題 2 構建在hadoop之上的資料倉儲 3 hive定義了一種類sql查詢語言 hql 4 通常用於進行離線資料處理 ...
什麼是資料倉儲
我們都知道,利用多種不同的企業資料庫提取資料進行業務決策是一件複雜的工作。而資料倉儲的主要優點就是可以將這些不同的資料整合在乙個 儲存環境中,並提供給使用者必須的olap online analytical processing,聯機分析處理 工具來檢索與業務有關的資料。當你聽到資料倉儲 data ...