Hive概述 學習筆記

2021-08-17 03:17:40 字數 1208 閱讀 7803

資料倉儲:

資料倉儲(data warehouse)是乙個面向主題的(subject oriented)、整合的(integrated)、相對穩定的(non-volatile)、反映歷史變化(time variant)的資料集合,用於支援管理決策

(水平)橫向擴充套件:增加節點;

(垂直)縱向擴充套件:增加節點能力;

hive是乙個構建於hadoop頂層的資料倉儲工具

支援大規模資料儲存、分析,具有良好的可擴充套件性

某種程度上可以看作是使用者程式設計介面,本身不儲存和處理資料

依賴分布式檔案系統hdfs儲存資料

依賴分布式平行計算模型mapreduce處理資料

定義了簡單的類似sql 的查詢語言——hiveql

使用者可以通過編寫的hiveql語句執行mapreduce任務

可以很容易把原來構建在關聯式資料庫上的資料倉儲應用程式移植到hadoop平台上

是乙個可以提供有效、合理、直觀組織和使用資料的分析工具

特點:

批處理海量資料:

hive需要把hiveql語句轉換成mapreduce任務進行執行

資料倉儲儲存的是靜態資料,對靜態資料的分析適合採用批處理方式,不需要快速響應給出結果,而且資料本身也不會頻繁變化

提供適合資料倉儲操作的工具:

hive本身提供了一系列對資料進行提取、轉換、載入(etl)的工具,可以儲存、查詢和分析儲存在hadoop中的大規模資料

這些工具能夠很好地滿足資料倉儲各種應用場景

以上為課件截圖和自己注釋;

Hive學習筆記 Hive概述

1.1 資料倉儲 可以利用資料倉儲來儲存我們的資料,但是資料倉儲有別於我們常見的一般資料庫。資料倉儲是乙個面向主題的 整合的 不可更新的 隨時間不變化的資料整合,它用於支援企業或組織的決策分析處理。物件導向的 倉庫中的資料是按照一定的主題進行組織的。主題即使用者使用資料倉儲進行決策時所關心的重點方面...

Hive學習筆記 Hive 引數

第一部分 hive 引數 hive.exec.max.created.files 說明 所有hive執行的map與reduce任務可以產生的檔案的和 預設值 100000 hive.exec.dynamic.partition 說明 是否為自動分割槽 預設值 false hive.mapred.re...

hive學習筆記

在使用hive進行開發時,我們往往需要獲得乙個已存在hive表的建表語句 ddl 然而hive本身並沒有提供這樣乙個工具。要想還原建表ddl就必須從元資料入手,我們知道,hive的元資料並不存放在hdfs上,而是存放在傳統的rdbms中,典型的如mysql,derby等,這裡我們以mysql為元資料...