背景描述
近年來隨著it產業的快速發展,全國各地對it 類的人才需求數量也在不斷
增多,「xhs集團」為了明確今後it產業人才培養方向,在多個省份進行 it公
司崗位情況調研分析。你所在的小組將承擔模擬調研分析的任務,通過在招聘
**進行招聘資訊的爬取,獲取到公司名稱、工作地點、崗位名稱、招聘要求、
招聘人數等資訊,並通過資料的清洗和分析,最終分析出當前it產業熱門崗位、
大資料相關崗位從業人員數量等資訊,並進行視覺化呈現。
本次為模擬任務,專案組計畫使用分布式節點hadoop模式,環境搭建採用
伺服器集群方式,通過在招聘**上爬取到的相關資訊,實現對資料進行爬取、
清洗、整理、計算、表達、分析,力求實現對it人才就業資訊擁有更清晰的掌
握。作為該專案組的技術人員,你們是這次技術方案展示的核心成員,請按照
下面步驟完成本次技術展示任務,並提交技術報告,祝你們成功。
任務一: hadoop 平台及元件的部署管理( 15 分)
1) 將指定路徑下的hive 安裝包解壓到指定目錄下;
2) 把解壓後的apache-hive-1.1.0-bin 資料夾更名為 hive;
3) 設定hive 環境變數,並使環境變數只對當前root 使用者生效;
4) 將 hive 安裝目錄下 hive-default.xml.template 檔案更名為 hive-site.xml;
5) 在 hive 安裝目錄裡建立臨時資料夾;
6) 新建並配置 hive-site.xml 檔案,實現「hive 元儲存」的儲存位置為 mysql數
據庫;7) 初始化hive 元資料;
8) 啟動hive。
任務二、資料採集( 15 分)
1) 從各類招聘**中抓取資料,提取資料項至少包括以下字段:「公司名
稱」、「工作城市」、「工作要求」、「招聘人數」、工資情況」(格式:
『底薪-上限』)、「name」(崗位名稱)、「detail」(職位詳情),並儲存;
2) 爬取的資料需要匯入hadoop 平台進行資料清洗與分析,將資料儲存至 hdfs
系統中。
任務 三 、資料清洗與分析(2 25 5 分)
1 、為 便於 資料分析與視覺化,需要對爬取出的資料進行清洗,清洗出不包 含空
字 段 的職位資訊資料,清洗後的職位資料各字 段間 用 豎線 「,」 分 割 。資料清洗
採用 mapreduce 程式 。
1) 使用編寫資料清洗的mapreduce 程式(原始資料中已包含職位描述的分詞
結果);
2) 將編寫好的檔案上傳並對hdfs 的原始資料進行清洗;
3) 將清洗後的資料載入到hive 資料倉儲中。
2 、資料清洗需要將清洗 程式 jar 包上 傳至 至 hadoop 平台上進行 運 行,並將清洗後
結果保 存至hive 資料庫中,以 便 後 續 應用。
1) 將 jar 包上傳至 hadoop 平台的/root 目錄下;
2) 執行mapreduce 任務,並寫出執行命令;
3)將執行成功後的資料儲存在 hdfs 檔案系統的/clean 目錄下;
3) 將清洗後資料儲存到hive 中 task 資料庫的cleandata 表中。
3 、 執行 行 hql 命令 ,完成以下資料的分析 統 計
1)統計各崗位招聘數量,將結果寫入cleantable 表中;
2)查詢「資料」相關崗位的技能要求,將查詢結果寫入table_bigdata 表中;
資料分析 Hive
hive可以自由擴充套件集群的規模,一般情況下不需要重啟服務。hive支援使用者自定義函式,使用者可以根據自己的需求定義函式。hive容錯性好,節點出現問題sql依舊可以執行。shell執行資料庫語句 hive v e v表示展示log 資訊e表示直接執行sqly語句 hive f執行sql指令碼,...
資料分析之資料採集
在資料分析前我們要先有資料,這就要考慮資料的 了。資料的 基本上有兩種 直接 和間接 通俗點說,直接資料就是通過我們採集的資料,間接資料就是我們引用別人的資料。自己採集的資料可靠性高,靈活度好,但採集比較麻煩 引用別人資料的方式雖然簡單,但資料可靠性要大打折扣。資料 資料屬性 備註直接資料 日誌資料...
hive簡單資料分析
select brand id from user log limit 10 檢視日誌前10資料好像也沒啥,和sql相同,limit取前多少條 as取別名 count 聚合函式 select count from user log 用聚合函式count 計算出表內有多少條行資料 distinct不重...