Hadoop綜合大作業

啟動hadoop

start-all.sh

hdfs dfs -ls input

啟動hive

hive

建立表docs

create table docs(line string);

把hdfs檔案系統中input資料夾裡的文字檔案load進去,寫hiveql命令統計

load data inpath '

input

' overwrite into table docs;

create table word_count as
select word,count(1) as count from
(select explode(split(line,
''))as word from
docs) w
group by word
order by word;

使用select命令檢視結果

2.用hive對爬蟲大作業產生的csv檔案進行資料分析，寫一篇部落格描述你的分析過程和分析結果。

首先檢視/usr/local/hadoop目錄下的csv檔案

上傳到檔案到dfs

將檔案匯入hive

load data inpath '

csv' overwrite into table docs;

檢視資料

亂碼原因：沒有把csv檔案的編碼設定為utf-8

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中想要把資料匯入到資料庫hive中，首先要通過命令把服務全部開啟把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生總結這次的資料...

作業於本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案預處理使用awk指令碼 com pre deal.sh 稍作處理，分隔開每一列啟動hdfs 在hdfs上建立 big...

hadoop綜合大作業要求詞頻統計的截圖如下上次我所使用的文章是一篇中文文章，所以這次我用了一篇英文文件來進行分詞，大致的流程與上次的操作差不多。這是啟動hadoop的畫面。啟動hive的畫面這是整篇英文文章讀取出來後的結果。2.用hive對爬蟲大作業產生的csv檔案進行資料分析，寫一篇部落...