1.需求描述
2.資料來源結構說明
資料來源1: user.txt
資料樣例:
資料樣例中的三個字段結構:
上傳者使用者名稱
string
int朋友數量
int資料來源2: video.txt
資料樣例:
fqshwyqgqsw lonelygirl15736 people& blogs133 151763 3.01666 765 fqshwyqgqsw lfaay1p_2is5lelnivymqo vw6zpqxjce4 vpuaf43vc-q zllfqzcc2_m it2d7lau_ta kgrx8tgzeeu aqwdqi1vd6o kzwa8nblueo x3ctufccf5k ble9n2kdigc r24fone2cds iay5q60cmyy mud0hcenhiu6oucp6uj2ba dv0y_uohrlc8yoxhsumlga h59nxann-oo113yn3sv0eo
資料樣例中的字段結構:
11 位字串
**次數
滿分 5 分流量
HIVE專案實戰
字段 備註詳細描述 video id 11位字串 uploader agecategory length views 次數 rate 滿分5分 ratings 流量conments related ids 2 使用者表 表6 14 使用者表 字段備註 字段型別 uploader 上傳者使用者名稱 s...
Hive專案實戰三
這裡總共需要建立4張表,明明只有兩個資料檔案,為什麼要建立4張表呢?因為這裡建立的表要使用orc的壓縮方式,而不使用預設的textfile的方式,orc的壓縮方式要想向表中匯入資料需要使用子查詢的方式匯入,即把從另一張表中查詢到的資料插入orc壓縮格式的表匯中,所以這裡需要四張表,兩張textfil...
hive 專案實戰 2
建表 建立表這裡總共需要建立4張表,明明只有兩個資料檔案,為什麼要建立4張表呢?因為這裡建立的表要使用orc的壓縮方式,而不使用預設的textfile的方式,orc的壓縮方式要想向表中匯入資料需要使用子查詢的方式匯入,即把從另一張表中查詢到的資料插入orc壓縮格式的表匯中,所以這裡需要四張表,兩張t...