資料倉儲工具 Hive介紹與使用

2021-12-30 02:38:39 字數 1097 閱讀 7383

是什麼

hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。 其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合資料倉儲的統計分析。

hive可以直接使用sql語句進行相關操作? ()

hive 定義了簡單的類 sql 查詢語言,稱為 hql,它允許熟悉 sql 的使用者查詢資料。同時,這個語言也允許熟悉 mapreduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作。

hive能夠在大規模資料集上實現低延遲快速的查詢? ()

hive 構建在基於靜態批處理的hadoop 之上,hadoop 通常都有較高的延遲並且在作業提交和排程的時候需要大量的開銷。因此,hive 並不能夠在大規模資料集上實現低延遲快速的查詢,例如,hive 在幾百mb 的資料集上執行查詢一般有分鐘級的時間延遲。因此,hive 並不適合那些需要低延遲的應用,例如,聯機事務處理(oltp)。

hivez在載入資料過程中不會對資料進行任何的修改,只是將資料移動到hdfs中hive設定的目錄下。 (√)

hive 是一種底層封裝了hadoop 的資料倉儲處理工具,使用類sql 的hiveql 語言實現資料查詢,所有hive 的資料都儲存在hadoop 相容的檔案系統(例如,amazon s3、hdfs)中。hive 在載入資料過程中不會對資料進行任何的修改,只是將資料移動到hdfs 中hive 設定的目錄下,因此,hive 不支援對資料的改寫和新增,所有的資料都是在載入的時候確定的。

特點● 支援索引,加快資料查詢。

● 不同的儲存型別,例如,純文字檔案、hbase 中的檔案。

● 將元資料儲存在關聯式資料庫中,大大減少了在查詢過程中執行語義檢查的時間。

● 可以直接使用儲存在hadoop 檔案系統中的資料。

● 內建大量使用者函式udf 來操作時間、字串和其他的資料探勘工具,支援使用者擴充套件udf 函式來完成內建函式無法實現的操作。

● 類sql 的查詢方式,將sql 查詢轉換為mapreduce 的job 在hadoop集群上執行。

Hive 資料倉儲工具,特性介紹

一 hive的儲存 hive是基於hadoop分布式檔案系統的,它的資料儲存在hdfs中。hive本身是沒有專門的資料儲存格式,也沒有為資料建立索引,只需要在建立表的時候告訴hive資料中的列分隔符和行分隔符,hive就可以解析資料。所以往hive表裡面匯入資料只是簡單的將資料移動到表所在的目錄中。...

hive(資料倉儲工具)

hive是基於hadoop的乙個 資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合 資...

Hive 資料倉儲

hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...