這個作業的要求來自:
。1.資料匯入。因為我是用自己的資料進行分析,不免就要進行csv匯出,其中用到了pandas,具體**加入到爬蟲資料中即可。
這是我自己的excel資料:
將檔案另存為txt格式,並為bigdatacase授權。最後查詢資料,同時對以前的資料進行對比。
具體的學習可以去處理文字檔案的語言。
接下來開啟hdfs:
在hdfs上建立bigdatabasecase/dataset。將bcomments.txt存入到hdfs的路徑中,最後進行驗證。
啟動mysql資料庫、hadoop和hive:
建立資料庫dblab,並通過命令「use dblab」開啟和使用資料庫:
建立外部表bdlab.bigdata_bcomments,並且把『/bigdatacase/dataset』目錄下的資料載入到資料倉儲hive中。(注意:裡面的列類,都是根據自己的實際需求進行更改。如果熟悉資料語言,可進行相應的修改。)
最後,通過select語句查詢資料庫前10條資料和某一列的資料,檢查前面建立的表是否有問題。
2.資料分析。通過建立的資料庫表對大資料進行查詢和分析。
向資料庫表重寫資料,覆蓋之前表裡的資料,排除因預處理環境導致的資料庫表出現問題:
insert overwrite table bigdata_bcomment select * from bigdata_bcomment where id is查詢資料一共有多少條:not null;
查詢使用者們的name屬性是否相同,來進行檢驗:
3.總結。
總的來說,這次的專案其實貫通了半個學期以來學習到的知識點,比如爬蟲大作業的爬資料、hadoop的基礎運用、hdfs的運用、hive的運用和資料分析等等。所以整個專案,將所學知識的串聯到了一起。學習到了許多,花了很多時間做這個作業,認認真真寫,但是遇到的問題也是有以下:
a.自己挖掘的資料量很龐大,而且中文內容很多,因此在匯入linux系統時出現了中文亂碼。
b.對於其中的很多知識點不懂,比如sed、awk都沒有理解和學習,因此在對資料檔案進行預處理時出現了有些行或列為null的情況。
c.資料存入資料庫表前就出現了問題,那麼在進行資料庫表內容查詢時會出現一些非預期的錯誤。
最後,嗯~受益匪淺。
大資料應用期末作業
此次作業是把本學期的兩個重要的作業聯合起來 用hdfs去處理爬蟲大作業爬下來的資料。作業要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 4.在hive中檢視並分析資料 實際操作 1.csv檔案...
大資料應用期末總作業
本次作業的要求來自 hadoop綜合大作業 要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 此處選取的是爬蟲大作業 豆瓣上排名前250的電影評價 此處選取的是douban.csv檔案,共計32829條資料。首先,在本地中建立乙個 usr local bigdatacase dataset 資料...
期末關鍵路徑大作業
回顧幾個問題 完成一部電影需要很多環節,具體環節如下 a 專案啟動到確定導演需要 1 個時間,已確定導演到完善細節需要 2 個時間,已經完善細 節到開始拍攝需要 2 個時間。b 專案啟動到確定演員需要 3 個時間,已確定導演到已確定演員需要 1 個時間,已確定演 員到開始拍攝需要 2 個時間。c 專...