pmml是一種可以呈現**分析模型的事實標準語言,用於呈現資料探勘模型。**分析模型採用定型過程中獲取的知識來**新資料中是否有已知模式。pmml允許您在不同的應用程式之間輕鬆共享**分析模型。因此,您可以在乙個系統中定型乙個模型,pmml中對其進行表達,然後將其移動到另乙個系統中,並在該系統中使用上述模型**機器失效的可能性等。
今天我們運用決策樹演算法訓練乙個客戶流失模型,進行「客戶流失」的**分析。
結點概覽
讀取資料。這裡讀取兩個資料檔案,乙個是通話資料和合約資料。接著講兩個資料以「**號(phone number)」為關鍵字連線。
檔案中有兩列資料,分別是「地區編號(area code)」和「流失情況(churn)」,我們不想將這兩列作為數值型資料處理,這裡我們將其更改為字元型資料。
將流失與否(這裡為布林值)用顏色標註出來,設定資料為0時標藍色,資料為1時標紅色。
接著把資料分成80%的訓練集和20%的測試集。
至此完成資料預處理工作。
使用決策樹,依照不同的指標,對流失和存活客戶數進行分類。
然後將決策樹所得模型記錄為pmml語句,方便下次呼叫。
刪除屬於多數類的隨機行(如在這裡流失客戶為少數項,存活客戶為多數),則我們隨機刪除一些多數項,使流失客戶和存活客戶資料量相同。接著輸入測試集和已得決策樹模型,應用決策樹演算法對之前分出的80%測試資料進行**。
通過roc曲線可以看出,這個模型的**準確度高達89.89%,是乙個比較理想的模型。
資料探勘案例 建立客戶流失模型
隨著市場競爭的加劇,中國電信面臨的壓力越來越大,客戶流失也日益增大。從統計資料看,今年固話小靈通的銷戶數已經超 過了開戶數。面對如此嚴峻的市場形式,當務之急就是要盡全力減少客戶的流失。因此,利用資料探勘方法,建立一套可以及時 客戶流失率的模型就相當有必要。一 確定客戶流失模型的目標 可能流失的客戶名...
資料探勘案例 建立客戶流失模型
本文 隨著市場競爭的加劇,中國電信面臨的壓力越來越大,客戶流失也日益增大。從統計資料看,今年固話小靈通的銷戶數已經超過了開戶數。面對如此嚴峻的市場形式,當務之急就是要盡全力減少客戶的流失。因此,利用 資料探勘 方法,建立一套可以及時 客戶流失率的模型就相當有必要。一 確定客戶流失模型的目標 可能流失...
客戶流失預警模型 資料預處理與特徵衍生
1 人為截斷,高於某一閾值的資料,統一等於某乙個數 2 刪除極端值 3 單獨建模型 1 完全隨機缺失 2 隨機缺失,依賴其他變數,如 配偶姓名 的缺失取決於 婚姻狀況 3 完全非隨機缺失 缺失值是由於本身缺陷導致,如年齡較低的信用卡辦卡人員不願意透露父母親的 1 刪除缺失值的屬性 2 插補填充 常用...