資料倉儲工具 Hive介紹與使用

是什麼

hive是基於hadoop的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為mapreduce任務進行執行。其優點是學習成本低，可以通過類sql語句快速實現簡單的mapreduce統計，不必開發專門的mapreduce應用，十分適合資料倉儲的統計分析。

hive可以直接使用sql語句進行相關操作? ()

hive 定義了簡單的類 sql 查詢語言，稱為 hql，它允許熟悉 sql 的使用者查詢資料。同時，這個語言也允許熟悉 mapreduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作。

hive能夠在大規模資料集上實現低延遲快速的查詢? ()

hive 構建在基於靜態批處理的hadoop 之上，hadoop 通常都有較高的延遲並且在作業提交和排程的時候需要大量的開銷。因此，hive 並不能夠在大規模資料集上實現低延遲快速的查詢，例如，hive 在幾百mb 的資料集上執行查詢一般有分鐘級的時間延遲。因此，hive 並不適合那些需要低延遲的應用，例如，聯機事務處理(oltp)。

hivez在載入資料過程中不會對資料進行任何的修改,只是將資料移動到hdfs中hive設定的目錄下。 (√)

hive 是一種底層封裝了hadoop 的資料倉儲處理工具，使用類sql 的hiveql 語言實現資料查詢，所有hive 的資料都儲存在hadoop 相容的檔案系統(例如，amazon s3、hdfs)中。hive 在載入資料過程中不會對資料進行任何的修改，只是將資料移動到hdfs 中hive 設定的目錄下，因此，hive 不支援對資料的改寫和新增，所有的資料都是在載入的時候確定的。

特點● 支援索引，加快資料查詢。

● 不同的儲存型別，例如，純文字檔案、hbase 中的檔案。

● 將元資料儲存在關聯式資料庫中，大大減少了在查詢過程中執行語義檢查的時間。

● 可以直接使用儲存在hadoop 檔案系統中的資料。

● 內建大量使用者函式udf 來操作時間、字串和其他的資料探勘工具，支援使用者擴充套件udf 函式來完成內建函式無法實現的操作。

● 類sql 的查詢方式，將sql 查詢轉換為mapreduce 的job 在hadoop集群上執行。

資料倉儲工具 Hive介紹與使用

Hive 資料倉儲工具,特性介紹

hive（資料倉儲工具）

Hive 資料倉儲

資料倉儲工具 Hive介紹與使用

Hive 資料倉儲工具,特性介紹

hive（資料倉儲工具）

Hive 資料倉儲

相關推薦