大資料應用期末大作業

2022-08-17 03:51:20 字數 1963 閱讀 3992

這個作業的要求來自:

1.資料匯入。因為我是用自己的資料進行分析,不免就要進行csv匯出,其中用到了pandas,具體**加入到爬蟲資料中即可。

這是我自己的excel資料:

將檔案另存為txt格式,並為bigdatacase授權。最後查詢資料,同時對以前的資料進行對比。   

具體的學習可以去處理文字檔案的語言。

接下來開啟hdfs:

在hdfs上建立bigdatabasecase/dataset。將bcomments.txt存入到hdfs的路徑中,最後進行驗證。

啟動mysql資料庫、hadoop和hive:

建立資料庫dblab,並通過命令「use dblab」開啟和使用資料庫:

建立外部表bdlab.bigdata_bcomments,並且把『/bigdatacase/dataset』目錄下的資料載入到資料倉儲hive中。(注意:裡面的列類,都是根據自己的實際需求進行更改。如果熟悉資料語言,可進行相應的修改。)

最後,通過select語句查詢資料庫前10條資料和某一列的資料,檢查前面建立的表是否有問題。

2.資料分析。通過建立的資料庫表對大資料進行查詢和分析。

向資料庫表重寫資料,覆蓋之前表裡的資料,排除因預處理環境導致的資料庫表出現問題:

insert overwrite table bigdata_bcomment select  * from bigdata_bcomment where id is

not null;

查詢資料一共有多少條:

查詢使用者們的name屬性是否相同,來進行檢驗:

3.總結。

總的來說,這次的專案其實貫通了半個學期以來學習到的知識點,比如爬蟲大作業的爬資料、hadoop的基礎運用、hdfs的運用、hive的運用和資料分析等等。所以整個專案,將所學知識的串聯到了一起。學習到了許多,花了很多時間做這個作業,認認真真寫,但是遇到的問題也是有以下:

a.自己挖掘的資料量很龐大,而且中文內容很多,因此在匯入linux系統時出現了中文亂碼。

b.對於其中的很多知識點不懂,比如sed、awk都沒有理解和學習,因此在對資料檔案進行預處理時出現了有些行或列為null的情況。

c.資料存入資料庫表前就出現了問題,那麼在進行資料庫表內容查詢時會出現一些非預期的錯誤。

最後,嗯~受益匪淺。

大資料應用期末作業

此次作業是把本學期的兩個重要的作業聯合起來 用hdfs去處理爬蟲大作業爬下來的資料。作業要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 4.在hive中檢視並分析資料 實際操作 1.csv檔案...

大資料應用期末總作業

本次作業的要求來自 hadoop綜合大作業 要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 此處選取的是爬蟲大作業 豆瓣上排名前250的電影評價 此處選取的是douban.csv檔案,共計32829條資料。首先,在本地中建立乙個 usr local bigdatacase dataset 資料...

期末關鍵路徑大作業

回顧幾個問題 完成一部電影需要很多環節,具體環節如下 a 專案啟動到確定導演需要 1 個時間,已確定導演到完善細節需要 2 個時間,已經完善細 節到開始拍攝需要 2 個時間。b 專案啟動到確定演員需要 3 個時間,已確定導演到已確定演員需要 1 個時間,已確定演 員到開始拍攝需要 2 個時間。c 專...