hadoop提供了大資料的通用解決方案,比如儲存提供了hdfs,計算提供了mapreduce思想。但是想要寫出mapreduce演算法還是比較繁瑣的,對於開發者來說,需要了解底層的hadoop api。如果不是開發者想要使用mapreduce就會很困難....
另一方面,大部分的開發者都有使用sql的經驗。sql成為開發者必備的技能...
那麼可以不可以使用sql來完成mapreduce的過程呢?—— 答案就是,hive
hive可以幫助開發者從現有的資料基礎架構轉移到hadoop上,而這個基礎架構是基於傳統關係型資料庫和sql的。hive提供了hive查詢語言,即hql,它可以使用sql方言查詢儲存在hadoop中的資料。
如果想要基於sql還想具有上面的特性,可以直接使用hadoop提供的nosql資料庫——hbase
hive適合做 資料倉儲 應用程式,可以維護海量資料,對資料進行挖掘,形成意見和報表。
同型別的工具就是pig
1 hql是如何變成mapreduce演算法的?
2 平時hql都是怎麼使用的?——最佳實踐
Hadoop大資料 Hive初識
hadoop提供了大資料的通用解決方案,比如儲存提供了hdfs,計算提供了mapreduce思想。但是想要寫出mapreduce演算法還是比較繁瑣的,對於開發者來說,需要了解底層的hadoop api。如果不是開發者想要使用mapreduce就會很困難.另一方面,大部分的開發者都有使用sql的經驗。...
大資料hadoop系列 Hive優化
map階段的優化 作業會通過input的目錄產生乙個或多個map任務。a 假設input目錄下有1個檔案a,大小為780m,那麼hadoop會將該檔案a分隔成7個塊 6個128m的塊和1個12m的塊 從而產生7個map數 b 假設input目錄下有3個檔案a,b,c,大小分別為10m,20m,130...
細細品味大資料 初識hadoop
初識hadoop 之前在學校的時候一直就想學習大資料方面的技術,包括hadoop和機器學習啊什麼的,但是歸根結底就是因為自己太懶了,導致沒有堅持多長時間,加上一直為offer做準備,所以當時重心放在c 上面了 雖然c 也沒怎麼學 計畫在大四下有空餘時間再來慢慢學習。現在實習了,需要這方面的知識,這對...