大資料應用期末總作業

本次作業的要求來自：

hadoop綜合大作業要求：

1.將爬蟲大作業產生的csv檔案上傳到hdfs

此處選取的是爬蟲大作業——豆瓣上排名前250的電影評價

此處選取的是douban.csv檔案，共計32829條資料。

首先，在本地中建立乙個/usr/local/bigdatacase/dataset 資料夾。然後把douban250.csv檔案複製到這個資料夾中，然後

刪除第一行記錄以及顯示前五行記錄如下圖所示：

對csv檔案進行預處理生成無標題文字檔案

檢視user_table.txt裡面的內容，如下圖所示：

將user_table.txt 存放在/usr/local/資料夾下賦予bigdatacase許可權如下圖所示:

接著，啟動hadoop，在hdfs上建立/bigdatacase/dataset資料夾

並且把user_table.txt上傳到hdfs中步驟如下：

檢視hdfs中的user_table.txt的前10條記錄，如下圖所示：

啟動mysql資料庫、啟動hadoop、啟動hive，進入命令列在hive中建立乙個資料庫dblab,如下圖所示：

建立外部表，把hdfs中的 /bigdatacase/dataset 目錄下的資料載入到hive倉庫中，

並且顯示 bigdata_user 前十條資料. 如下圖所示：

查詢前10位豆瓣使用者對電影的評分，如下圖所示：

查詢電影評分為9分的使用者對電影的評價。如下圖所示：

檢視豆瓣中電影評分小於8分的電影如下圖所示：

檢視豆瓣中電影評分少於8分的電影的文字評價。如下圖所示：

總結：通過這學期的學習我對hadoop的 mapreduce還有hdfs檔案系統有了更加深層次的理解，也對hive的建立資料庫、

結構化查詢的功能更加深入了解。更加學習了python.明白了這門課程的真正用途，這學期的課學到了很多新的知識，也

複習了以前的知識，讓我對計算機有了更加深層次的理解！

大資料應用期末作業

此次作業是把本學期的兩個重要的作業聯合起來用hdfs去處理爬蟲大作業爬下來的資料。作業要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 4.在hive中檢視並分析資料實際操作 1.csv檔案...

大資料應用期末大作業

這個作業的要求來自 1.資料匯入。因為我是用自己的資料進行分析，不免就要進行csv匯出，其中用到了pandas，具體加入到爬蟲資料中即可。這是我自己的excel資料將檔案另存為txt格式，並為bigdatacase授權。最後查詢資料，同時對以前的資料進行對比。具體的學習可以去處理文字檔案的語言。...

大資料應用期末總評

一建立乙個執行本案例的目錄bigdatacase dataset 將文字拷貝到dataset目錄下並檢視檔案二預處理檔案，將csv生成txt檔案 1 刪除第一行字段 2 預處理字段每個欄位用 t隔開，這裡有6個字段。1 啟動hdfs 2 在hdfs上建立 bigdatacase datase...

大資料應用期末總作業

大資料應用期末作業

大資料應用期末大作業

大資料應用期末總評

相關推薦