招聘資料採集 Hive資料分析 資料視覺化

2021-09-23 18:15:08 字數 1734 閱讀 2595

背景描述

近年來隨著it產業的快速發展,全國各地對it 類的人才需求數量也在不斷

增多,「xhs集團」為了明確今後it產業人才培養方向,在多個省份進行 it公

司崗位情況調研分析。你所在的小組將承擔模擬調研分析的任務,通過在招聘

**進行招聘資訊的爬取,獲取到公司名稱、工作地點、崗位名稱、招聘要求、

招聘人數等資訊,並通過資料的清洗和分析,最終分析出當前it產業熱門崗位、

大資料相關崗位從業人員數量等資訊,並進行視覺化呈現。

本次為模擬任務,專案組計畫使用分布式節點hadoop模式,環境搭建採用

伺服器集群方式,通過在招聘**上爬取到的相關資訊,實現對資料進行爬取、

清洗、整理、計算、表達、分析,力求實現對it人才就業資訊擁有更清晰的掌

握。作為該專案組的技術人員,你們是這次技術方案展示的核心成員,請按照

下面步驟完成本次技術展示任務,並提交技術報告,祝你們成功。

任務一: hadoop 平台及元件的部署管理( 15 分)

1) 將指定路徑下的hive 安裝包解壓到指定目錄下;

2) 把解壓後的apache-hive-1.1.0-bin 資料夾更名為 hive;

3) 設定hive 環境變數,並使環境變數只對當前root 使用者生效;

4) 將 hive 安裝目錄下 hive-default.xml.template 檔案更名為 hive-site.xml;

5) 在 hive 安裝目錄裡建立臨時資料夾;

6) 新建並配置 hive-site.xml 檔案,實現「hive 元儲存」的儲存位置為 mysql數

據庫;7) 初始化hive 元資料;

8) 啟動hive。

任務二、資料採集( 15 分)

1) 從各類招聘**中抓取資料,提取資料項至少包括以下字段:「公司名

稱」、「工作城市」、「工作要求」、「招聘人數」、工資情況」(格式:

『底薪-上限』)、「name」(崗位名稱)、「detail」(職位詳情),並儲存;

2) 爬取的資料需要匯入hadoop 平台進行資料清洗與分析,將資料儲存至 hdfs

系統中。

任務 三 、資料清洗與分析(2 25 5 分)

1 、為 便於 資料分析與視覺化,需要對爬取出的資料進行清洗,清洗出不包 含空

字 段 的職位資訊資料,清洗後的職位資料各字 段間 用 豎線 「,」 分 割 。資料清洗

採用 mapreduce  程式 。

1) 使用編寫資料清洗的mapreduce 程式(原始資料中已包含職位描述的分詞

結果);

2) 將編寫好的檔案上傳並對hdfs 的原始資料進行清洗;

3) 將清洗後的資料載入到hive 資料倉儲中。

2 、資料清洗需要將清洗 程式 jar  包上 傳至 至 hadoop  平台上進行 運 行,並將清洗後

結果保 存至hive 資料庫中,以 便 後 續 應用。

1) 將 jar 包上傳至 hadoop 平台的/root 目錄下;

2) 執行mapreduce 任務,並寫出執行命令;

3)將執行成功後的資料儲存在 hdfs 檔案系統的/clean 目錄下;

3) 將清洗後資料儲存到hive 中 task 資料庫的cleandata 表中。

3 、 執行 行 hql  命令 ,完成以下資料的分析 統 計

1)統計各崗位招聘數量,將結果寫入cleantable 表中;

2)查詢「資料」相關崗位的技能要求,將查詢結果寫入table_bigdata 表中;

資料分析 Hive

hive可以自由擴充套件集群的規模,一般情況下不需要重啟服務。hive支援使用者自定義函式,使用者可以根據自己的需求定義函式。hive容錯性好,節點出現問題sql依舊可以執行。shell執行資料庫語句 hive v e v表示展示log 資訊e表示直接執行sqly語句 hive f執行sql指令碼,...

資料分析之資料採集

在資料分析前我們要先有資料,這就要考慮資料的 了。資料的 基本上有兩種 直接 和間接 通俗點說,直接資料就是通過我們採集的資料,間接資料就是我們引用別人的資料。自己採集的資料可靠性高,靈活度好,但採集比較麻煩 引用別人資料的方式雖然簡單,但資料可靠性要大打折扣。資料 資料屬性 備註直接資料 日誌資料...

hive簡單資料分析

select brand id from user log limit 10 檢視日誌前10資料好像也沒啥,和sql相同,limit取前多少條 as取別名 count 聚合函式 select count from user log 用聚合函式count 計算出表內有多少條行資料 distinct不重...