Hadoop綜合大作業

作業**於：

本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析

1.將爬蟲大作業產生的csv檔案上傳到hdfs

2.對csv檔案進行預處理生成無標題文字檔案

預處理：

使用awk指令碼(com_pre_deal.sh)稍作處理，分隔開每一列

啟動hdfs

在hdfs上建立/bigdatacase/dataset資料夾

把user_comment.txt上傳到hdfs中，並檢視前5條記錄

3.把hdfs中的文字檔案最終匯入到資料倉儲hive中

4.在hive中檢視並分析資料

使用netstat -tunlp 檢視埠 :3306 lision確定已經啟動了mysql資料庫（否則使用$service mysql start啟動）

啟動hive，並建立乙個資料庫dblab

建立外部表，把hdfs中的「/bigdatacase/dataset」目錄下的資料（注意要刪除之前練習時的資料user_table.txt，只剩下目標資料，否則會把資料疊加在一起！）載入到了資料倉儲hive中

在hive中檢視資料

5.用hive對爬蟲大作業產生的進行資料分析，寫一篇部落格描述你的分析過程和分析結果。（8條以上的查詢分析）

①查詢統計總資料量

評分在超過9的有130部電影，證明高分電影占有比較低

Hadoop綜合大作業

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中想要把資料匯入到資料庫hive中，首先要通過命令把服務全部開啟把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生總結這次的資料...

hadoop綜合大作業

hadoop綜合大作業要求詞頻統計的截圖如下上次我所使用的文章是一篇中文文章，所以這次我用了一篇英文文件來進行分詞，大致的流程與上次的操作差不多。這是啟動hadoop的畫面。啟動hive的畫面這是整篇英文文章讀取出來後的結果。2.用hive對爬蟲大作業產生的csv檔案進行資料分析，寫一篇部落...

Hadoop綜合大作業

1 啟動hadoop 2 hdfs上建立資料夾並檢視 3 上傳英文詞頻統計文字至hdfs 4 啟動hive 5 建立novel原始文件表 6 匯入檔案內容到表novel並檢視 7 用hql進行詞頻統計，結果放在表k word count裡 8 檢視統計結果二用hive對產生的csv檔案進行資料分...

Hadoop綜合大作業

Hadoop綜合大作業

hadoop綜合大作業

Hadoop綜合大作業

相關推薦