最近在學excel資料分析,感覺excel的資料分析功能很不錯,在這裡記錄了本人的一次對某保險公司客戶索賠資料的資料分析過程。
首先先理清一下資料分析的思路和步驟:
1、拿到相關的統計資料
2、根據問題思考什麼樣的客戶意向最大,提出問題
3、根據問題,清洗資料
4、構建模型
5、資料視覺化分析
(一)先拿到乙份資料表(稍微處理的乙個資料**,時間列變為日期型):
(二)然後根據**提出相關問題:
1)不同省份的索賠額情況
2)不同的年齡的索賠額分布是怎樣的
3)不同時間段的索賠額分布是怎樣的
4)不同性別的索賠額情況是怎樣的
(三)清洗資料
1)選擇需要使用到的資料,把無關的資料可以隱藏起來
字段:保險單號,損失型別,保險型別,郵編這四個字段分析師用不到,所以暫時可以隱藏掉
2)刪除重複值
在這個表中,索賠單號是唯一的,所以可以根據這個來刪除重複不需要的資料
可通過【資料】-【刪除重複值】實現
3)缺失值處理
可通過【開始】-【查詢和選擇】-【定位條件】-【空值】來定位出缺失值
該文字有缺失值,用黃顏色背景色標識出來
缺失項一般可以這樣處理:
人工手動補全(缺失值較少時);
刪除缺失值的項;
用平均值代替缺失值; 本案例使用各字段的平均值代替缺失值
用統計模型計算出的值代替缺失值;
4)一致化處理
資料格式設定要統一,可設定標準的日期、數值或文字格式,便於後續的分析;
(四)根據問題,來處理資料
1)不同省份的索賠額情況
得出的結論是:索賠額前三名分別是廣東省,廣西省,遼寧省.金額分別是13446150,8852200,7031650
索賠總額最後三位為雲南省,**,青海省經濟不發達地區
2)不同的年齡段的索賠額分布是怎樣的
得出的結論是:從圖可以看出20-29歲的人數為19%
30-39歲的人數為24%
40-49歲的人數為26%
50-59歲的人數為24%
60-69歲的人數為7%
3)2023年不同時間段的索賠額分布是怎樣的
得出的結論是:2023年不同時間段的索賠額分布比較平均
可以看出索賠額集中在8000元左右
4)全國男女索賠人數情況以及廣東省男女索賠人數情況如何
全國男性索賠人數
=countif(c2:c10001,「男」) 4627人
全國女性索賠人數
=countif(c2:c10001,「女」) 5373人
廣東省女性索賠人數
=countifs(c2:c10001,「女」,m2:m10001,「廣東省」) 829人
廣東省男性索賠人數
=countifs(c2:c10001,「男」,m2:m10001,「廣東省」) 730人
得出的結論是:全國女性索賠人數大於男性人數,廣東省跟全國的趨勢差不多, 也是女性索賠人數大於男性人數。
保險資料分析
2006年度各機構在各險種上的份額 維度建模舉例 時間 機構 險種 客戶 主 題 維度建模的基本概念 模型概述 模型介紹 模型運用方法與技巧 相關技術問題 元資料 模型在整個系統架構中的定位 面向業務應用 基本上與業務資料同構 保留詳細交易資料 資料倉儲 分析層 分析層模型主題域 分析層模型每個主題...
南非知名保險公司QSure遭遇資料洩露事件
據外媒報道,南非的qsure保險公司報告了一起資料洩露事件。據mo web報道,此次事件的結果是,銀行賬戶資訊等敏感資訊被第三方盜取。任何通過借記卡付款的qsure的客戶都可能受到該資料洩露事件的影響。qsurwww.cppcns.come尋求三家領先的網路安全公司的協助,對這一安全事件進行調查。該...
Excel資料分析
資料分析主要有以下五個步驟 1 提出問題 2 理解資料 3 資料清洗 4 構建模型 5 資料視覺化 一 提出問題 為了更好了解上海二手房市場,提出以下幾個問題 1 上海房價均價如何 2 哪些地區提供 量較多 3 戶型分布如何 二 理解資料 本次練習選取的資料為上海二手房資訊,於網上,共9個字段,總計...