一、建立乙個執行本案例的目錄bigdatacase、dataset:
將文字拷貝到dataset目錄下並檢視檔案:
二、預處理檔案,將csv生成txt檔案:
1、刪除第一行字段:
2、預處理字段:
每個欄位用\t隔開,這裡有6個字段。
1、啟動hdfs:
2、在hdfs上建立/bigdatacase/dataset資料夾,將檔案上傳:
3、啟動mysql:
4、在hive中建立資料庫dblab:
5、在把hdfs中的「/bigdatabase/dataset」目錄下的資料載入到了資料倉儲的hive中的:
(在這裡遇到了乙個問題就是,如果出現以下情況,則修改下欄位名稱,這裡我將date改成riqi就可以了):
6、在hive中檢視資料,查詢表的前10條記錄:
四、hive資料分析:
2、查詢投票數前20的評價程度:
查詢結果顯示大部分還是呈「推薦」趨勢的。
3、查詢評價為「力薦」的數量:
4、查詢評價為「推薦」的數量:
5、查詢評價為「較差」的數量:
6、查詢評價為「很差」的數量:
通過3、4、5、6的查詢可以得出推薦和力薦的總數量達1442,佔總比的72%,較差和很差的數量佔總數的3.1%,說明大部分還是給了好評居多。
7、查詢前10的使用者所在的城市:
9、查詢北京的使用者評價的內容:
10、查詢上海、的使用者評價的內容:
11、查詢廣州的使用者評價的內容:
通過9、10、11的分析得出一線城市使用者的評價可看出高票評價觀點鮮明,好評的居多,但是有部分不認同和反對,說明評價還有有一定的客觀性的。
四、總結
分析結果:針對在豆瓣爬取的《三體》短評,通過城市、時間、評價星級等各方面進行分析得出:短評大部分還是比較好的,短評有好有壞,但好評居多,說明此作品具有一定的可讀性和可觀性。
通過本案例,了解了hdfs和hive資料倉儲的大資料分析基本的原理和操作,在海量資料處理方面,hadoop在資料容納和分析方面有著先天的優勢,不過本案例的資料還不夠多體現不出。hive倉庫分析其實也有很多函式可以進行大資料的處理和分析,這裡也進行了簡單的資料庫查詢。總體有待完善。
大資料應用期末總評
作業要求 一 課程評分標準 分數組成 考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準 難易程度 資料量二 17周演示檢查 爬蟲大作業 和 hadoop綜合大作業 三 ha...
大資料應用期末總評
一 課程評分標準 分數組成 考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準 難易程度 資料量二 17周演示檢查 爬蟲大作業 和 hadoop綜合大作業 三 hadoop綜...
大資料應用期末總評
作業要求 hadoop綜合大作業 要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 轉為txt檔案上傳到hdfs上 建立資料庫 4.在hive中檢視並分析資料 5.用hive對爬蟲大作業產生的進...