hdfs中儲存的是資料
hive只裝在一台機器上,hive只是乙個工具乙個客戶端,而且他的資料時儲存在hdfs中的,只要hive能讀取hdfs的資料,能和msql進行互動底層就能轉換成mr程式,mr程式交給yarn之後就進行分布式執行了
hive來處理hdfs中儲存的結構化的靜態化資料,
這個資料可以用mapreduce程式處理hdfs中的結構化靜態資料,處理完成之後,打成jar包執行在yarn平台上,mr處理完的資料會寫到hdfs上,mr程式處理資料比較複雜,開發成本高,周期長
1.hive sql -->hql cli客戶端可以使用hive寫sql語句,form時候就能讀到hdfs表的資料,這時候hive與hdfs的資料形成對映關係,根據資料結構建立表結構(1.建表 表的結構根據處理的資料來決定的;2.描述表的結構的資訊叫做表的元資料3.指定處理資料的位置),表的元資料和指定處理資料的位置叫做元資料,把元資料存到mysql資料庫中
2.當cli客戶端執行sql語句的時候回到mysql中表的元資料資訊,資料位置,然後解析sql語句 分析 優化 轉成mr程式,當執行sql語句的時候載入元資料資訊,這時候也知道表的結構,知道資料的位置,最後底層也是有mr程式執行的
Hive工作原理
使用者提交查詢等任務給driver。編譯器獲得該使用者的任務plan。編譯器compiler根據使用者任務去metastore中獲取需要的hive的元資料資訊。編譯器compiler得到元資料資訊,對任務進行編譯,先將hiveql轉換為抽象語法樹,然後將抽象語法樹轉換成查詢塊,將查詢塊轉化為邏輯的查...
Hive工作模式
hive非互動模式 1 可以將hive執行的sql語句儲存到指令碼檔案中,通過 f選項指定指令碼檔案執行hive eg hive f script.sql 2 對於較短的sql語句,可以直接使用 e選項執行hive eg hive e select from table a 3 s選項 hive執行...
Hive 工作機制
hive 是乙個基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為乙個表,並提供sql查詢功能,可將sql語句轉換為mapreduce任務進行。優點 學習成本低 可以通過類sql語句快速實現mapreduce統計。將清洗過的資料放入到hdfs中,就可以進行各種統計了 hive執行時,元...