基於Hadoop平台做大資料的幾種應用

2021-09-02 12:32:48 字數 321 閱讀 8621

1、自己寫mapreduce任務,雖然開發難度大一點,但執行效率比pig和hive高,像google的pagerank排名,機器學習、推薦,全盤掃瞄的etl都是這種方式的典型應用;

2、用hive做分析,hive的一大好處就是能使用程式設計師熟悉的sql進行計算任務編寫,但某些運算效率不及m/r;

3、用pig做資料分析,pig是yahoo的研發成果,yahoo也希望將其推廣為大資料領域內的資料分析標準,但從目前看pig的語法尚未普及,跟hive的問題一樣,在做某些運算時效率不及m/r;

4、基於hbase開發的系統,基本上可以達到實時分析系統的效果,但目前沒有開源實現,開發成本高。

大資料平台搭建 基於Hadoop的資料分析平台

網際網路的發展,帶來了各種資料的爆發式增長,所有接入網際網路的相關操作行為,都化為虛擬的資料被記錄了下來。大資料時代的帶來,乙個明顯的變化就是全樣本資料分析,面對tb pb級及以上的資料規模,hadoop成為主流選擇。企業要進行大規模的資料分析,基於開源的hadoop及其生態圈來搭建起大資料系統平台...

做大資料心得

1 sql嫻熟,這體現在etl的hive階段,自定義函式,分析函式,sql各種關聯寫 類dba傾向 2 hive sql優化要懂 3 mr流程要很熟悉,mr 優化,配置要知道,這在hive sql優化上有幫助,甚至有的hive寫法很消耗效率,啟動多個mr的時候,能自定義mr 來替代 4 大資料的et...

SqlBulkCopy做大資料插入

在做大批量資料插入的時候,如果用insert into values 這種方式的話效率極低,這裡介紹兩種效能比較好的批量插入方法。1.使用sqlbulkcopy private static long sqlbulkcopyinsert sqlbulkcopy sqlbulkcopy new sql...