此次作業是把本學期的兩個重要的作業聯合起來——用hdfs去處理爬蟲大作業爬下來的資料。
作業要求:
1.將爬蟲大作業產生的csv檔案上傳到hdfs
2.對csv檔案進行預處理生成無標題文字檔案
3.把hdfs中的文字檔案最終匯入到資料倉儲hive中
4.在hive中檢視並分析資料
實際操作
1.csv檔案上傳到hdfs
2.對csv檔案進行預處理生成無標題,無符號的分開的檔案
3.啟動hadoop
4.啟動live,並在live建立表hkj
5.把zic.csv的內容放到建立的hkj表裡面。
6.完成後就可以對資料進行分析。
7.查詢本次資料的條數(258)
8.查詢是極力推薦的人數(58)
12.看完評價覺得不推薦的(8)
通過這次融合,明白了兩個作業的共同作用。
可惜學藝不精,只爬到了兩百多條。無法對其深入分析,還有很多要繼續去學的。
大資料應用期末大作業
這個作業的要求來自 1.資料匯入。因為我是用自己的資料進行分析,不免就要進行csv匯出,其中用到了pandas,具體 加入到爬蟲資料中即可。這是我自己的excel資料 將檔案另存為txt格式,並為bigdatacase授權。最後查詢資料,同時對以前的資料進行對比。具體的學習可以去處理文字檔案的語言。...
大資料應用期末總作業
本次作業的要求來自 hadoop綜合大作業 要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 此處選取的是爬蟲大作業 豆瓣上排名前250的電影評價 此處選取的是douban.csv檔案,共計32829條資料。首先,在本地中建立乙個 usr local bigdatacase dataset 資料...
大資料應用期末總評
一 建立乙個執行本案例的目錄bigdatacase dataset 將文字拷貝到dataset目錄下並檢視檔案 二 預處理檔案,將csv生成txt檔案 1 刪除第一行字段 2 預處理字段 每個欄位用 t隔開,這裡有6個字段。1 啟動hdfs 2 在hdfs上建立 bigdatacase datase...