本題是乙個綜合練習題目總共包括以下部分:
1.資料的預處理階段
2.資料的入庫操作階段
3.資料的分析階段
4.資料儲存到資料庫階段
5.資料的查詢顯示階段
給出資料格式表和資料示例,請先閱讀資料說明,再做相應題目。
建立video_user_orc表:
create table video_user_ori(
uploader string,
videos int,
friends int)
row format delimited
fields terminated by 「,」
stored as orc;
video_user_ori:
load data local inpath 『/opt/考試資料/user.txt』 into table video_user_ori
2.3從原始表查詢資料並插入對應的orc表中
請寫出插入語句:
video_orc:
insert into table video_orc select * from video_ori
video_user_orc:
insert into table video_user_orc select * from video_user_ori
hive -e 「select * from myhive.video_orc where comments>100」>/export/comments.txt
4、把hive分析出的資料儲存到hbase中
4.1建立hive對應的資料庫外部表
請寫出建立rate外部表的語句:
create external table rate(
videoid string,
uploader string,
age int,
category array,
length int,
views int,
rate float,
ratings int,
comments int,
relatedid array)
row format delimited fields terminated by 『\t』
collection items terminated by 「,」
請寫出建立comments外部表的語句:
create external table comments (
videoid string,
uploader string,
age int,
category array,
length int,
views int,
rate float,
ratings int,
comments int,
relatedid array)
row format delimited fields terminated by 『\t』
collection items terminated by 「,」
4.2載入第3步的結果資料到外部表中
請寫出載入語句到rate表:
sed -i 『s/]//g』 rate.txt
sed -i 『s/[//g』 rate.txt
sed -i 『s/\」//g』 rate.txt
load data local inpath 『/export/rate.txt』 into table rate
請寫出載入語句到comments表:
sed -i 『s/]//g』 comments.txt
sed -i 『s/[//g』 comments.txt
sed -i 『s/\」//g』 comments.txt
load data local inpath 『/export/comments.txt』 into table comments
大資料處理流程
q 大資料處理的流程是什麼,需要對應掌握哪些技能?a 1 資料採集 flume 資料採集與聚合 2 資料清洗 對髒資料進行清洗 spark hive mr 或其他 清洗之後可以存放到hdfs hive spark sql 3 資料處理 按照業務邏輯處理資料 spark hive mr 或其他 4 處...
Pytorch資料處理流程
1.numpy.genfromtxt path,delimiter dtype str,skip header 1 將資料從csv匯入array 型別為string 若資料為影象,還需對影象進行處理 增廣 string split list np.array ndarray reshape 最後轉換...
大資料處理的基本流程
大資料處理流程主要包括資料收集 資料預處理 資料儲存 資料處理與分析 資料展示 資料視覺化 資料應用等環節,其中資料質量貫穿於整個大資料流程,每乙個資料處理環節都會對大資料質量產生影響作用。通常,乙個好的大資料產品要有大量的資料規模 快速的資料處理 精確的資料分析與 優秀的視覺化圖表以及簡練易懂的結...