員工工牌編號格式 員工資料分析 視覺化報告

2021-10-14 14:59:56 字數 1898 閱讀 1829

本次利用excel進行員工資料分析。

分析步驟如下:

一、提出問題

首先,我們在分析資料之前要明確本次資料分析的目的,為了解決什麼問題。

二、理解資料

ibm hr analytics employee attrition & performance​www.kaggle.com

三、資料清洗

1、選擇子集

只選擇和本次資料分析相關的字段,隱藏不相關的字段;把選擇好的字段的全部資料選中複製到乙個新錶中,後面的資料分析都在新錶總處理。選擇字段:employeenumber、education、distancefromhome、overtime、jobrole、gender、department、monthlyincome

字段含義:

2、規範列名

為方便後面資料分析,把資料集的英文列名更改為對應的中文列名,方便我們理解。

3、刪除重複值

檢查員工編號,條件格式——重複值,並未發現重複值,不刪除。

4、缺失值處理

缺失值處理的 4 種方法:

①通過人工手動補全(定位空值,輸入資料後按「ctrl + enter」批量填充)

②刪除缺失的資料

③用平均值代替缺失值

④用統計模型計算出的值去代替缺失值

全選資料區域,用「定位條件」定位空值,未發現空值存在。

5、一致化處理

(1)為方便理解資料,把英文轉化為中文。

(2)、離家距離需要分層級,根據距離的遠近程度對其分層級。

根據需要進行劃分層級,再用if函式進行處理。

6、異常值處理

根據「查詢和篩選功能」未發現異常值,無須進行異常值處理。

到此資料清洗的所有步驟已完成,接下來我們開始構建模型。

四、構建模型

1、受教育程度與員工平均與收入的關係是什麼?不同部門,員工受教育程度的比例。

製作透視表,做相關分析。

(1)、受教育程度與月均收入的關係。

(2)、不同部門間員工受教育程度情況。

2、公司離家距離和加班情況(比例)

3、同一工作角色,男性和女性的月均收入情況。不同工作角色的加班比例。

(1)、同一工作角色,男性和女性的月均收入情況

(2)、不同工作角色的加班比例

五、總結和建議

Python 資料分析視覺化

1 畫圖需要使用 matplotlib這個包 如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...

資料分析與視覺化

1.pip包管理 1 內建庫 包 庫 別人寫好的 直接引用,加快開發效率。內建包 python直譯器內建常用功能庫。直譯器安裝目錄 lib資料夾下,os time urllib等 資料夾裡有 init py 就成了乙個包。2 關於http模擬和html源 解析 python時代 urllib url...

資料分析與視覺化(python)

print 中 encode encoding gbk b xd6 xd0 gbk編碼 乙個漢字兩個位元組 為了節省流量 國內有人仍堅持gbk 中 encode encoding utf 8 對於中文,gbk比utf8節省三分之一的空間 解碼 二進位制 自然資訊 eg b xd6 xd0 decod...