大資料應用期末作業

此次作業是把本學期的兩個重要的作業聯合起來——用hdfs去處理爬蟲大作業爬下來的資料。

作業要求：

1.將爬蟲大作業產生的csv檔案上傳到hdfs

2.對csv檔案進行預處理生成無標題文字檔案

3.把hdfs中的文字檔案最終匯入到資料倉儲hive中

4.在hive中檢視並分析資料

實際操作

1.csv檔案上傳到hdfs

2.對csv檔案進行預處理生成無標題，無符號的分開的檔案

3.啟動hadoop

4.啟動live，並在live建立表hkj

5.把zic.csv的內容放到建立的hkj表裡面。

6.完成後就可以對資料進行分析。

7.查詢本次資料的條數（258）

8.查詢是極力推薦的人數（58）

12.看完評價覺得不推薦的（8）

通過這次融合，明白了兩個作業的共同作用。

可惜學藝不精，只爬到了兩百多條。無法對其深入分析，還有很多要繼續去學的。

大資料應用期末大作業

這個作業的要求來自 1.資料匯入。因為我是用自己的資料進行分析，不免就要進行csv匯出，其中用到了pandas，具體加入到爬蟲資料中即可。這是我自己的excel資料將檔案另存為txt格式，並為bigdatacase授權。最後查詢資料，同時對以前的資料進行對比。具體的學習可以去處理文字檔案的語言。...

大資料應用期末總作業

本次作業的要求來自 hadoop綜合大作業要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 此處選取的是爬蟲大作業豆瓣上排名前250的電影評價此處選取的是douban.csv檔案，共計32829條資料。首先，在本地中建立乙個 usr local bigdatacase dataset 資料...

大資料應用期末總評

一建立乙個執行本案例的目錄bigdatacase dataset 將文字拷貝到dataset目錄下並檢視檔案二預處理檔案，將csv生成txt檔案 1 刪除第一行字段 2 預處理字段每個欄位用 t隔開，這裡有6個字段。1 啟動hdfs 2 在hdfs上建立 bigdatacase datase...

大資料應用期末作業

大資料應用期末大作業

大資料應用期末總作業

大資料應用期末總評

相關推薦