資料探勘在電信客戶流失分析中的應用

2022-08-13 02:09:11 字數 2895 閱讀 3654

資料探勘

是近年來伴隨著人工智慧和資料庫技術發展而出現的一門新興技術。它的核心功能是從巨大的資料集或資料倉儲中獲取有用資訊,以供企業分析和處理各種複雜的資料關係。隨著

電信市場競爭的日益加劇,

運營商普遍開始向「客戶驅動」管理模式轉變。最近幾年,資料探勘技術以其強大的資料分析功能被普遍應用到電信運營商客戶管理之中。

資料挖據的主要方法

作為一種先進的資料資訊處理技術,資料探勘與傳統的資料分析的本質區別在於它是資料關係的乙個探索過程,而且多數情況下是在未有任何假設和前提的條件下完成的。資料探勘具備多種不同的方法,供使用者從不同的緯度對資料展開全面分析。

(1)相關分析和回歸分析。相關分析主要分析變數之間聯絡的密切程度;回歸分析主要基於觀測資料與建立變數之間適當的依賴關係。相關分析與回歸分析均反映的是資料變數之間的有價值的關聯或相關聯絡,因此兩者又可統稱為關聯分析。

(2)時間序列分析。時間序列分析與關聯分析相似,其目的也是為了挖掘資料之間的內在聯絡,但不同之處在於時間序列分析側重於資料在時間先後上的因果關係,這點與關聯分析中的平行關係分析有所不同。

(3)分類與**分析。分類與**用於提取描述重要資料類的模型,並運用該模型判斷分類新的觀測值或者**未來的資料趨勢。

(4)聚類分析。聚類分析就是將資料物件按照一定的特徵組成多個類或者簇,在同乙個簇的物件之間有較高的相似度,而不同的簇之間差異則要大很多。在過程上看,聚類分析一定程度上是分類與**的逆過程。

資料探勘的應用

目前,電信運營商面臨激烈的市場競爭,客戶爭奪愈演愈烈,每個企業都存在客戶流失的問題。傳統意義上來講,留住乙個客戶所需要的成本是爭取乙個新使用者成本的1/5,尤其對於剩餘客戶市場日漸稀疏的通訊市場來說,減少客戶流失就意味著用更少的成本減少利潤的流失,這點已經為運營商所廣為接受。然而問題所在是當運營商面臨海量的客戶資料時,應如何才能夠從中提取出有效的資訊以判斷客戶流失的狀況或者傾向。在此,資料探勘所提供的資料探索能力得到了充分的發揮,下面簡要地描述資料探勘在客戶流失分析管理中的應用過程。

(1)定義主題客戶流失分析中的主題應當包括流失客戶的特徵;現有客戶的流失概率如何(包括不同細分客戶群的流失程度);哪些因素造成了客戶的流失等。主題是資料探勘的主要目標,決定了此後過程中資料探勘的主要努力方向,因此在定義上應當十分明確。

(2)資料選擇。資料選擇是資料探勘的前提,主要是確定資料字段的收集,因為並不是所有的客戶資訊都會對客戶的流失產生影響,應盡可能地降低資料的複雜度以發掘較高的關聯度,但是考慮到後期客戶流失的多維分析,應當盡量確保客戶資訊的完整性,因此,應對客戶的有價值資訊予以區分收集,剔除部分冗餘資料,減少資料噪音。此間要注意的是在客戶流失分析上,從資料倉儲中採集資料的主要目的是調查客戶資訊的變化情況,因此對資料採集時間間隔的設定顯得尤為重要。若採集時間過長,可能在流失判斷出來時客戶已然流失;若採集時間過於緊密或者實時採集則需要考慮運營商現有系統的支撐能力。

(3)分析資料。分析資料主要是對提取的資料進行分析,找到對**輸出影響最大的資料字段,並決定是否需要定義匯出字段。在分析資料時需要謹慎選擇對**相關的流失客戶資料參與建模才能有效建立模型。分析資料過程還應包括資料清洗和資料預處理。資料清洗和預處理是建模前的資料準備工作,主要包括資料抽樣、資料轉換、缺損資料處理等。資料抽樣是根據事先確定的資料進行樣本抽取,選擇抽樣而不是對整體進行處理,以降低系統的處理量。另外樣本一般分為建模樣本和

測試樣本,一部分用來建模,另一部分用來對模型進行修正和檢驗。資料轉換是為了保證資料的質量和可用性,比如某些資料探勘模型需要對連續資料進行離散化、歸一化處理等。缺損資料有時可以不做處理,由後面具體選擇的資料探勘模型來處理。

(4)模型建立。對資料進行分析並利用各種資料探勘技術和方法在多個可供選擇的模型中找出最佳模型。初始階段可能模型擬合度不高,需要反覆更換模型,直到能夠找到最合適的模型來描述資料,並從中找到規律。建立模型通常由資料分析專家配合業務專家來完成,常用的流失分析模型主要有決策樹、貝葉斯

網路和神經網路等。

(5)模型的評估與檢驗。模型建立之後,一般要通過訓練集的測試才能考慮下一步應用。比較常規的驗證方法是輸入一些歷史的流失客戶資料,執行此模式予以判斷,比較資料探勘的結果與已知歷史結果的差異。客戶流失判斷一般存在兩種錯誤結果。一是棄真錯誤,即原有歷史客戶具備流失傾向並且已經流失,但是模型未能夠準確**客戶的流失傾向;二是存偽錯誤,即原有使用者並未有流失的傾向,但被模型判斷為具有流失傾向。

(6)應用模型。從前面的工作中可以得出一些簡單的結論,比如通訊支出越少的客戶越容易流失、欠費頻率越高的客戶越容易流失等。除此之外,資料探勘人員還應配合業務專家,根據資料探勘分析尋找流失的原因,並找出潛在的規律,對未來的客戶流失進行**,指導業務行為。

流失分析中需要注意的問題

與其它行業客戶流失分析相比,電信行業以其龐大的客戶群而特徵鮮明,因此在一些問題的處理上也應當多加注意。

(1)過度抽樣。從實際情況上看,國內電信企業每月的客戶流失率一般在1%~3%左右,如果直接採用某種模型(比如決策樹、人工神經網路等)可能會因為資料概率太小而導致模型的失效,因此我們需要加大流失客戶在總樣本中的比例,但是這種過度抽樣必須謹慎小心,要充分考慮它的負面效應。

(2)模型的有效性。在實際運用的過程中,資料探勘除了上述提到的兩類錯誤之外還可能存在客戶被判斷具備流失傾向,但當資料返回到客戶服務前台的時候客戶已經流失的情況,其原因可能存在於不同業務部門之間協調工作的時延過長或者資料採集間隔太長等,這使得流失判定預警喪失了原有的意義。

(3)模型的流失後分析。資料探勘在客戶流失管理中的重要應用不僅僅應包括對客戶流失的提前預警,還應包括客戶流失後的問題分析。按照不同的客戶資訊緯度,查詢最容易流失的客戶群,同業務部門人員配合,輔以相關調查,力求發現客戶流失的癥結所在。然而,這一部分往往由於過度專注於挖掘模型本身的擬合度而忽略了流失管理的實際價值所在。

隨著電信行業競爭的日益加劇,客戶保留和客戶價值開發將成長為電信企業考慮的重點所在,而技術的不斷進步將為深度的資料探勘提供更多的支援,也必然會被越來越多地應用到運營商的客戶關係管理之中。

基於資料探勘的客戶流失分析案例

客戶挽留在很多行業都是乙個備受關注的問題,比如電信 銀行 保險 零售等。要做客戶挽留就需要對客戶流失進行預警 客戶流失原因分析 客戶滿意度或忠誠度研究 客戶生命週期研究等相關問題進行深入而全面的分析。例如,對客戶的行為特徵進行分析,可以了解有多少客戶流失,客戶是什麼時候流失的,以及客戶是如何流失的等...

資料探勘中的預處理 以電信客戶流失問題為例

資料預處理 step1 資料取樣 由於在建立客戶流失模型過程中,流失客戶往往佔所有客戶人群的比例很小,這時,最好的辦法是保留真個流失客戶人群,而對非流失客戶人群進行取樣,使得客戶流失與非客戶流失人群在1 1 1 2 step2 資料探索 缺失值和異常值 step3 建立缺失變數指示器 對於每乙個缺失...

py資料分析學習日誌 電信客戶流失資料

注意 原文使用的pandas為0.17版本之前,在新版的pd一部分函式已被棄用或改寫,以下 已修改 seniorcitizen 老年人 partner 配偶 dependents 家屬 renure 職位 multiplelines 網際網路服務 sreamingtv 額 contract 合同 l...