Hadoop綜合大作業

因為大資料爬出來的資料不太適合進行詞頻統計，所以我換了一篇簡易的英文文章，其次因為英文長篇**實在是太長，詞頻統計出來截圖截不完。

2.用hive對爬蟲大作業產生的csv檔案進行資料分析，寫一篇部落格描述你的分析過程和分析結果。

在做的過程中遇到個問題，因為用python匯出來的csv有亂碼，我是先嘗試用xsxl檔案格式匯出然後再轉到csv，在excel裡無亂碼，但用txt開啟的話好像是亂碼。其次是我優化了一下匯出來的資料，便於嘗試用來進行資料分析。

為了解決亂碼的問題，我是現在window7把資料的.txt另存為的時候編碼改為utf-8這樣才能使文字在linux裡不會變成亂碼。

檢視資料集

而此處我已經將資料進行了預處理，並且檢視

把data.txt匯入hdfs中

在這裡我想進行查詢可是行數顯示為0，那麼說明資料匯入失敗，然後我進行了很多次嘗試都無法匯入，因為水平時間有限，而我的資料量還較小，所以我只能打出語句然後再excel裡模擬查詢後的效果。

查詢點選量前3

select

top3

from

bigdata

order

by click desc

因為資料量樣本數量沒那麼多，因此我也不是很好能夠得出較為有代表的資訊。

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中想要把資料匯入到資料庫hive中，首先要通過命令把服務全部開啟把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生總結這次的資料...

作業於本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案預處理使用awk指令碼 com pre deal.sh 稍作處理，分隔開每一列啟動hdfs 在hdfs上建立 big...

hadoop綜合大作業要求詞頻統計的截圖如下上次我所使用的文章是一篇中文文章，所以這次我用了一篇英文文件來進行分詞，大致的流程與上次的操作差不多。這是啟動hadoop的畫面。啟動hive的畫面這是整篇英文文章讀取出來後的結果。2.用hive對爬蟲大作業產生的csv檔案進行資料分析，寫一篇部落...