資料探勘的價值:壽險行業資料探勘應用分析
北京理工大學 劉勇 張麗平
2003-12-9 14:47:04
壽險是保險行業的乙個重要分支,具有巨大的市場發展空間,因此,隨著壽險市場的開放、外資公司的介入,競爭逐步公升級,群雄逐鹿已成定局。如何保持自身的核心競爭力,使自己始終立於不敗之地,是每個企業必須面對的問題。資訊科技的應用無疑是提高企業競爭力的有效手段之一。壽險資訊系統經過了多年的發展,已逐步成熟完善,並積累了相當數量的資料資源,為資料探勘提供了堅實的基礎,而通過資料探勘發現知識,並用於科學決策越來越普遍受到壽險公司的重視。
資料探勘
資料探勘(data mining,dm)是指從大量不完全的、有雜訊的、模糊的、隨機的資料中,提取隱含在其中的、有用的資訊和知識的過程。其表現形式為概念(concepts)、規則(rules)、模式(patterns)等形式。
目前業內已有很多成熟的資料探勘方**,為實際應用提供了理想的指導模型。crisp-dm(cross-industry standard process for data mining)就是公認的、較有影響的方**之一。crisp-dm強調,dm不單是資料的組織或者呈現,也不僅是資料分析和統計建模,而是乙個從理解業務需求、尋求解決方案到接受實踐檢驗的完整過程。crisp-dm將整個挖掘過程分為以下六個階段:商業理解(business understanding),資料理解(data understanding),資料準備(data preparation),建模(modeling),評估(evaluation)和發布(deployment)。
商業理解就是對企業運作、業務流程和行業背景的了解;資料理解是對現有企業應用系統的了解;資料準備就是從企業大量資料中取出乙個與要探索問題相關的樣板資料子集。建模是根據對業務問題的理解,在資料準備的基礎上,選擇一種更為實用的挖掘模型,形成挖掘的結論。評估就是在實際中檢驗挖掘的結論,如果達到了預期的效果,就可將結論發布。在實際專案中,crisp-dm模型中的資料理解、資料準備、建模、評估並不是單向運作的,而是乙個多次反覆、多次調整、不斷修訂完善的過程。
行業資料探勘
經過多年的系統運營,壽險公司已積累了相當可觀的保單資訊、客戶資訊、交易資訊、財務資訊等,也出現了超大規模的資料庫系統。同時,資料集中為原有業務水平的提公升以及新業務的拓展提供了條件,也為資料探勘提供了豐厚的土壤。
根據crisp-dm模型,資料探勘首先應該做的是對業務的理解、尋找資料探勘的目標和問題。這些問題包括:**人的甄選、欺詐識別以及市場細分等,其中市場細分對企業制定經營戰略具有極高的指導意義,它是關係到企業能否生存與發展、企業市場營銷戰略制定與實現的首要問題。
針對壽險經營的特點,我們可以從不同的角度對客戶群體進行分類歸納,從而形成各種客戶分布統計,作為管理人員決策的依據。從壽險產品入手,分析客戶對不同險種的偏好程度,指導**人進行重點推廣,是比較容易實現的挖掘思路。由於國內經濟發展狀況不同,各省差異較大,因此必須限定在乙個經濟水平相當的區域進行分析資料的取樣。同時,市場波動也是必須要考慮的問題,乙個模型從建立到廢棄有乙個生命週期,週期根據模型的適應性和命中率確定,因此模型需要不斷修訂。
挖掘系統架構
挖掘系統包括規則生成子系統和應用評估子系統兩個部分。
規則生成子系統主要完成根據資料倉儲提供的保單歷史資料,統計並產生相關規律,並輸出相關結果。具體包括資料抽取轉換、挖掘資料庫建立、建模(其中包括了引數設定)、模型評估、結果發布。發布的物件是高層決策者,同時將模型提交給應用評估子系統.根據效果每月動態生成新的模型。
應用評估子系統可以理解為生產系統中的挖掘**程式,根據生成子系統產生的規則按照一定的策略對保單資料進行非類**。通過系統的任務計畫對生產資料產生評估指標。具體包括核心業務系統資料自動轉入資料平台、規則實**估、 評估結果動態顯示、實際效果評估。規則評估子系統根據規則進行檢測。經過一段時間的檢測,可利用規則生成子系統重新學習,獲得新的規則,不斷地更新規則庫,直到規則庫穩定。
目前比較常用的分析指標有: 險種、交費年期、被保人職業、被保人年收入、被保人年齡段、被保人性別、被保人婚姻狀況等。
實踐中,可結合實際資料狀況,對各要素進行適當的取捨,並做不同程度的概括,以形成較為滿意的判定樹,產生可解釋的結論成果。
電信行業資料探勘分析
1.離網客戶 分析 客戶流失 市場滲透比率高 異網使用者策反 建立離網客戶 模型,產生最可能離網的客戶名單,結合客戶價值評分,協助公司採取合適的客戶挽留措施,保證收入和確保客戶忠誠度。2.客戶價值分析 客戶與客戶群 企業收益率 客戶當前價值評分 客戶潛在價值 核算客戶價值,計算使用者當前利潤貢獻度和...
SPSS Modeler資料探勘 資料探勘概述
資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...
資料探勘 資料
對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。1.1 抽樣的方法 1 簡單隨機抽樣 random sampling 放回 不放回 2 分層抽樣 stratified sampling 如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,...