本次利用excel進行員工資料分析。
分析步驟如下:
一、提出問題
首先,我們在分析資料之前要明確本次資料分析的目的,為了解決什麼問題。
二、理解資料
ibm hr analytics employee attrition & performancewww.kaggle.com
三、資料清洗
1、選擇子集
只選擇和本次資料分析相關的字段,隱藏不相關的字段;把選擇好的字段的全部資料選中複製到乙個新錶中,後面的資料分析都在新錶總處理。選擇字段:employeenumber、education、distancefromhome、overtime、jobrole、gender、department、monthlyincome
字段含義:
2、規範列名
為方便後面資料分析,把資料集的英文列名更改為對應的中文列名,方便我們理解。
3、刪除重複值
檢查員工編號,條件格式——重複值,並未發現重複值,不刪除。
4、缺失值處理
缺失值處理的 4 種方法:
①通過人工手動補全(定位空值,輸入資料後按「ctrl + enter」批量填充)
②刪除缺失的資料
③用平均值代替缺失值
④用統計模型計算出的值去代替缺失值
全選資料區域,用「定位條件」定位空值,未發現空值存在。
5、一致化處理
(1)為方便理解資料,把英文轉化為中文。
(2)、離家距離需要分層級,根據距離的遠近程度對其分層級。
根據需要進行劃分層級,再用if函式進行處理。
6、異常值處理
根據「查詢和篩選功能」未發現異常值,無須進行異常值處理。
到此資料清洗的所有步驟已完成,接下來我們開始構建模型。
四、構建模型
1、受教育程度與員工平均與收入的關係是什麼?不同部門,員工受教育程度的比例。
製作透視表,做相關分析。
(1)、受教育程度與月均收入的關係。
(2)、不同部門間員工受教育程度情況。
2、公司離家距離和加班情況(比例)
3、同一工作角色,男性和女性的月均收入情況。不同工作角色的加班比例。
(1)、同一工作角色,男性和女性的月均收入情況
(2)、不同工作角色的加班比例
五、總結和建議
Python 資料分析視覺化
1 畫圖需要使用 matplotlib這個包 如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...
資料分析與視覺化
1.pip包管理 1 內建庫 包 庫 別人寫好的 直接引用,加快開發效率。內建包 python直譯器內建常用功能庫。直譯器安裝目錄 lib資料夾下,os time urllib等 資料夾裡有 init py 就成了乙個包。2 關於http模擬和html源 解析 python時代 urllib url...
資料分析與視覺化(python)
print 中 encode encoding gbk b xd6 xd0 gbk編碼 乙個漢字兩個位元組 為了節省流量 國內有人仍堅持gbk 中 encode encoding utf 8 對於中文,gbk比utf8節省三分之一的空間 解碼 二進位制 自然資訊 eg b xd6 xd0 decod...