hadoop綜合大作業

2022-05-07 12:45:10 字數 1091 閱讀 4728

hadoop綜合大作業 要求:

詞頻統計的截圖如下:

上次我所使用的文章是一篇中文文章,所以這次我用了一篇英文文件來進行分詞,大致的流程與上次的操作差不多。

這是啟動hadoop的畫面。

啟動hive的畫面

這是整篇英文文章讀取出來後的結果。

2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落格描述你的分析過程和分析結果。

這個檔案是之前爬蟲得到的csv檔案,由於資料量比較大,我就只擷取了所有資料的前100條,在之後我就將這個檔案傳到了hadoop上面去,在我打算將它用hive新生成的檔案顯示出來的時候,結果顯示的是亂碼,如下圖所示:

我在網上查閱了很多資料,可能是編碼的問題,但是參照網上的那些改變編碼的語句,結果還是與原來一樣,不知道是因為檔案在傳至hadoop的過程中編碼的問題還是hive新建表出現錯誤。最後我還是採用了與之前一樣的方法,新建乙個txt文件,把資料放進裡面,傳到hadoop上面,然後把資料顯示出來。

新建乙個txt文件。

將文字中的內容顯示出來。

Hadoop綜合大作業

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 想要把資料匯入到資料庫hive中,首先要通過命令把服務全部開啟 把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生 總結 這次的資料...

Hadoop綜合大作業

作業 於 本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 預處理 使用awk指令碼 com pre deal.sh 稍作處理,分隔開每一列 啟動hdfs 在hdfs上建立 big...

Hadoop綜合大作業

1 啟動hadoop 2 hdfs上建立資料夾並檢視 3 上傳英文詞頻統計文字至hdfs 4 啟動hive 5 建立novel原始文件表 6 匯入檔案內容到表novel並檢視 7 用hql進行詞頻統計,結果放在表k word count裡 8 檢視統計結果 二 用hive對產生的csv檔案進行資料分...