hadoop資料遷入到hive

由於很多資料在hadoop平台，當從hadoop平台的資料遷移到hive目錄下時，由於hive預設的分隔符是\,為了平滑遷移，需要在建立**時指定資料的分割符號，語法如下：

create table test(uid string,name string)row format delimited fields terminated by '\t'；

通過這種方式，完成分隔符的指定。

然後通過hadoop fs -cp或者hadoop distcp 進行資料夾複製。

由於資料複製的成本比較高，時間比較慢，當不需要複製資料的時候，可以直接採取移動的方式將hadoop資料轉移到hive，hadoop fs -mv src dest。

乙個比較簡單的方法是直接建立 external table,語法如下：

create table test(uid string,name string)row format delimited fields terminated by '\t' location 'hdfs'；

通過這種方式，避免資料的移動帶來時間損耗，提高執行的效率。

Hadoop大資料 Hive初識

hadoop提供了大資料的通用解決方案，比如儲存提供了hdfs，計算提供了mapreduce思想。但是想要寫出mapreduce演算法還是比較繁瑣的，對於開發者來說，需要了解底層的hadoop api。如果不是開發者想要使用mapreduce就會很困難.另一方面，大部分的開發者都有使用sql的經驗。...

Hadoop大資料 Hive初識

大資料hadoop系列 Hive優化

map階段的優化作業會通過input的目錄產生乙個或多個map任務。a 假設input目錄下有1個檔案a,大小為780m,那麼hadoop會將該檔案a分隔成7個塊 6個128m的塊和1個12m的塊從而產生7個map數 b 假設input目錄下有3個檔案a,b,c,大小分別為10m，20m，130...

hadoop資料遷入到hive

Hadoop大資料 Hive初識

Hadoop大資料 Hive初識

大資料hadoop系列 Hive優化

相關推薦