作業**於:
hadoop綜合大作業 要求:
1.將爬蟲大作業產生的csv檔案上傳到hdfs
把資料儲存在dataset目錄下
在本地檢視資料集
2.對csv檔案進行預處理生成無標題文字檔案
刪除檔案第一行資料
3.把hdfs中的文字檔案最終匯入到資料倉儲hive中
在hdfs上建立資料夾
把資料檔案上傳到hdfs中
檢視前10條資料
4.在hive中檢視並分析資料
建立資料庫
檢視資料
5.用hive對爬蟲大作業產生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)
(1)查詢資料量
作業**於:
作業要求:
以」./bin/dfs dfs」開頭的shell命令方式
在hdfs中為hadoop使用者建立乙個使用者目錄(hadoop使用者)
在使用者目錄下建立乙個input目錄
在hdfs的根目錄下建立乙個名稱為input的目錄
刪除hdfs根目錄中的「input」目錄
在該檔案裡面可以隨意輸入一些單詞,如學號
把本地檔案系統的「/home/hadoop/姓名.txt」上傳到hdfs中的當前使用者目錄的input目錄下
檢視一下檔案是否成功上傳到hdfs中
檢視hdfs中的姓名.txt這個檔案的內容
把檔案從hdfs中當前使用者目錄的input目錄拷貝到hdfs根目錄
從hdfs根目錄刪除這個檔案
作業**於:
作業要求:
以」./bin/dfs dfs」開頭的shell命令方式
在hdfs中為hadoop使用者建立乙個使用者目錄(hadoop使用者)
在使用者目錄下建立乙個input目錄
在hdfs的根目錄下建立乙個名稱為input的目錄
刪除hdfs根目錄中的「input」目錄
在該檔案裡面可以隨意輸入一些單詞,如學號
把本地檔案系統的「/home/hadoop/姓名.txt」上傳到hdfs中的當前使用者目錄的input目錄下
檢視一下檔案是否成功上傳到hdfs中
檢視hdfs中的姓名.txt這個檔案的內容
把檔案從hdfs中當前使用者目錄的input目錄拷貝到hdfs根目錄
從hdfs根目錄刪除這個檔案
大資料應用期末總評
一 建立乙個執行本案例的目錄bigdatacase dataset 將文字拷貝到dataset目錄下並檢視檔案 二 預處理檔案,將csv生成txt檔案 1 刪除第一行字段 2 預處理字段 每個欄位用 t隔開,這裡有6個字段。1 啟動hdfs 2 在hdfs上建立 bigdatacase datase...
大資料應用期末總評
作業要求 一 課程評分標準 分數組成 考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準 難易程度 資料量二 17周演示檢查 爬蟲大作業 和 hadoop綜合大作業 三 ha...
大資料應用期末總評
一 課程評分標準 分數組成 考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準 難易程度 資料量二 17周演示檢查 爬蟲大作業 和 hadoop綜合大作業 三 hadoop綜...