招聘資料採集 Hive資料分析資料視覺化

背景描述

近年來隨著it產業的快速發展，全國各地對it 類的人才需求數量也在不斷

增多，「xhs集團」為了明確今後it產業人才培養方向，在多個省份進行 it公

司崗位情況調研分析。你所在的小組將承擔模擬調研分析的任務，通過在招聘

**進行招聘資訊的爬取，獲取到公司名稱、工作地點、崗位名稱、招聘要求、

招聘人數等資訊，並通過資料的清洗和分析，最終分析出當前it產業熱門崗位、

大資料相關崗位從業人員數量等資訊，並進行視覺化呈現。

本次為模擬任務，專案組計畫使用分布式節點hadoop模式，環境搭建採用

伺服器集群方式，通過在招聘**上爬取到的相關資訊，實現對資料進行爬取、

清洗、整理、計算、表達、分析，力求實現對it人才就業資訊擁有更清晰的掌

握。作為該專案組的技術人員，你們是這次技術方案展示的核心成員，請按照

下面步驟完成本次技術展示任務，並提交技術報告，祝你們成功。

任務一： hadoop 平台及元件的部署管理（ 15 分）

1）將指定路徑下的hive 安裝包解壓到指定目錄下；

2）把解壓後的apache-hive-1.1.0-bin 資料夾更名為 hive；

3）設定hive 環境變數，並使環境變數只對當前root 使用者生效；

4）將 hive 安裝目錄下 hive-default.xml.template 檔案更名為 hive-site.xml；

5）在 hive 安裝目錄裡建立臨時資料夾；

6）新建並配置 hive-site.xml 檔案，實現「hive 元儲存」的儲存位置為 mysql數

據庫；7）初始化hive 元資料；

8）啟動hive。

任務二、資料採集（ 15 分）

1）從各類招聘**中抓取資料，提取資料項至少包括以下字段：「公司名

稱」、「工作城市」、「工作要求」、「招聘人數」、工資情況」（格式：

『底薪-上限』）、「name」(崗位名稱)、「detail」(職位詳情)，並儲存；

2）爬取的資料需要匯入hadoop 平台進行資料清洗與分析，將資料儲存至 hdfs

系統中。

任務三、資料清洗與分析（2 25 5 分）

1 、為便於資料分析與視覺化，需要對爬取出的資料進行清洗，清洗出不包含空

字段的職位資訊資料，清洗後的職位資料各字段間用豎線「,」分割。資料清洗

採用 mapreduce 程式。

1）使用編寫資料清洗的mapreduce 程式（原始資料中已包含職位描述的分詞

結果）；

2）將編寫好的檔案上傳並對hdfs 的原始資料進行清洗；

3）將清洗後的資料載入到hive 資料倉儲中。

2 、資料清洗需要將清洗程式 jar 包上傳至至 hadoop 平台上進行運行，並將清洗後

結果保存至hive 資料庫中，以便後續應用。

1）將 jar 包上傳至 hadoop 平台的/root 目錄下；

2）執行mapreduce 任務，並寫出執行命令；

3）將執行成功後的資料儲存在 hdfs 檔案系統的/clean 目錄下；

3）將清洗後資料儲存到hive 中 task 資料庫的cleandata 表中。

3 、執行行 hql 命令，完成以下資料的分析統計

1）統計各崗位招聘數量，將結果寫入cleantable 表中；

2）查詢「資料」相關崗位的技能要求，將查詢結果寫入table_bigdata 表中；

資料分析 Hive

hive可以自由擴充套件集群的規模，一般情況下不需要重啟服務。hive支援使用者自定義函式，使用者可以根據自己的需求定義函式。hive容錯性好，節點出現問題sql依舊可以執行。shell執行資料庫語句 hive v e v表示展示log 資訊e表示直接執行sqly語句 hive f執行sql指令碼，...

資料分析之資料採集

在資料分析前我們要先有資料，這就要考慮資料的了。資料的基本上有兩種直接和間接通俗點說，直接資料就是通過我們採集的資料，間接資料就是我們引用別人的資料。自己採集的資料可靠性高，靈活度好，但採集比較麻煩引用別人資料的方式雖然簡單，但資料可靠性要大打折扣。資料資料屬性備註直接資料日誌資料...

hive簡單資料分析

select brand id from user log limit 10 檢視日誌前10資料好像也沒啥，和sql相同，limit取前多少條 as取別名 count 聚合函式 select count from user log 用聚合函式count 計算出表內有多少條行資料 distinct不重...

招聘資料採集 Hive資料分析 資料視覺化

資料分析 Hive

資料分析之資料採集

hive簡單資料分析

相關推薦

招聘資料採集 Hive資料分析資料視覺化