本次作業的要求來自:
hadoop綜合大作業 要求:
1.將爬蟲大作業產生的csv檔案上傳到hdfs
此處選取的是爬蟲大作業——豆瓣上排名前250的電影評價
此處選取的是douban.csv檔案,共計32829條資料。
首先,在本地中建立乙個/usr/local/bigdatacase/dataset 資料夾。 然後把douban250.csv檔案複製到這個資料夾中,然後
刪除第一行記錄以及 顯示前五行記錄 如下圖所示:
對csv檔案進行預處理生成無標題文字檔案
檢視user_table.txt裡面的內容,如下圖所示:
將user_table.txt 存放在/usr/local/資料夾下賦予bigdatacase許可權 如下圖所示:
接著,啟動hadoop, 在hdfs上建立/bigdatacase/dataset資料夾
並且把user_table.txt上傳到hdfs中 步驟如下:
檢視hdfs中的user_table.txt的前10條記錄,如下圖所示:
啟動mysql資料庫、啟動hadoop、啟動hive,進入命令列 在hive中建立乙個資料庫dblab,如下圖所示:
建立外部表,把hdfs中的 /bigdatacase/dataset 目錄下的資料載入到hive倉庫中,
並且顯示 bigdata_user 前十條資料. 如下圖所示:
查詢前10位豆瓣使用者對電影的評分, 如下圖所示:
查詢電影評分為9分 的使用者對電影的評價。 如下圖所示:
檢視豆瓣中電影評分小於8分的電影 如下圖所示:
檢視豆瓣中電影評分少於8分的電影的文字評價。如下圖所示:
總結:通過這學期的學習我對hadoop的 mapreduce還有hdfs檔案系統有了更加深層次的理解,也對hive的建立資料庫、
結構化查詢的功能更加深入了解。 更加學習了python.明白了這門課程的真正用途,這學期的課學到了很多新的知識,也
複習了以前的知識,讓我對計算機有了更加深層次的理解!
大資料應用期末作業
此次作業是把本學期的兩個重要的作業聯合起來 用hdfs去處理爬蟲大作業爬下來的資料。作業要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 4.在hive中檢視並分析資料 實際操作 1.csv檔案...
大資料應用期末大作業
這個作業的要求來自 1.資料匯入。因為我是用自己的資料進行分析,不免就要進行csv匯出,其中用到了pandas,具體 加入到爬蟲資料中即可。這是我自己的excel資料 將檔案另存為txt格式,並為bigdatacase授權。最後查詢資料,同時對以前的資料進行對比。具體的學習可以去處理文字檔案的語言。...
大資料應用期末總評
一 建立乙個執行本案例的目錄bigdatacase dataset 將文字拷貝到dataset目錄下並檢視檔案 二 預處理檔案,將csv生成txt檔案 1 刪除第一行字段 2 預處理字段 每個欄位用 t隔開,這裡有6個字段。1 啟動hdfs 2 在hdfs上建立 bigdatacase datase...