大資料應用期末大作業

這個作業的要求來自：

。1.資料匯入。因為我是用自己的資料進行分析，不免就要進行csv匯出，其中用到了pandas，具體**加入到爬蟲資料中即可。

這是我自己的excel資料：

將檔案另存為txt格式，並為bigdatacase授權。最後查詢資料，同時對以前的資料進行對比。

具體的學習可以去處理文字檔案的語言。

接下來開啟hdfs：

在hdfs上建立bigdatabasecase/dataset。將bcomments.txt存入到hdfs的路徑中，最後進行驗證。

啟動mysql資料庫、hadoop和hive:

建立資料庫dblab，並通過命令「use dblab」開啟和使用資料庫：

建立外部表bdlab.bigdata_bcomments,並且把『/bigdatacase/dataset』目錄下的資料載入到資料倉儲hive中。（注意：裡面的列類，都是根據自己的實際需求進行更改。如果熟悉資料語言，可進行相應的修改。）

最後，通過select語句查詢資料庫前10條資料和某一列的資料，檢查前面建立的表是否有問題。

2.資料分析。通過建立的資料庫表對大資料進行查詢和分析。

向資料庫表重寫資料，覆蓋之前表裡的資料，排除因預處理環境導致的資料庫表出現問題：

insert overwrite table bigdata_bcomment select * from bigdata_bcomment where id is

not null;

查詢資料一共有多少條：

查詢使用者們的name屬性是否相同，來進行檢驗：

3.總結。

總的來說，這次的專案其實貫通了半個學期以來學習到的知識點，比如爬蟲大作業的爬資料、hadoop的基礎運用、hdfs的運用、hive的運用和資料分析等等。所以整個專案，將所學知識的串聯到了一起。學習到了許多，花了很多時間做這個作業，認認真真寫，但是遇到的問題也是有以下：

a.自己挖掘的資料量很龐大，而且中文內容很多，因此在匯入linux系統時出現了中文亂碼。

b.對於其中的很多知識點不懂，比如sed、awk都沒有理解和學習，因此在對資料檔案進行預處理時出現了有些行或列為null的情況。

c.資料存入資料庫表前就出現了問題，那麼在進行資料庫表內容查詢時會出現一些非預期的錯誤。

最後，嗯~受益匪淺。