一。資料準備
(1)資料抽取
(2)資料淨化:清除資料來源中不正確、空值、不完整等不能達到資料探勘質量要求的資料
(3)衍生變數:將變數的取值對映成適合聚類演算法的變數型別(基本來說,聚類演算法都是基於距離的,對於一些不是數值型別的變數,需要轉換一下表達方式)
(4)異常值處理:異常值指遠遠偏離一般值的資料,可以採用均值,中位值替換的方法來處理,或者直接剔除
(5)資料標準化:將資料轉化成不受量綱影響的資料形式(x-mean)/dev。
二。類別確定
聚類演算法都需要指定類別的數量,對於不同數量的類別,聚類的效果也不一樣。乙個評判聚類效果的標準就是f值(平均組間離差平方和除以平均組內離差平方和)差異大小。越小則表達聚類效果越好。
然後諮詢經驗人士確認類別範圍,然後分別求出每種情況的f值,取最優類別數量作為聚類演算法的種類數量。
三。組別評份
2.5+2.5 * log(各組均值/所有使用者)/(最強組均值/所有使用者均值) //引用別人的**
群間特徵差異是否明顯
群內特徵是否相似
分群是否易於管理及是否具有業務指導意義
特徵項:
記錄數,總費用,本地通話時長,長途通話時長,漫遊通話時長,ip通話時長,夢網簡訊傳送次數,傳送彩信次數,
撥打客服次數,點對點簡訊傳送數量,互聯簡訊傳送數量,網內通話時長,撥打聯通時長,撥打固話時長。
週末通話次數,9:00-18:00佔通話次數比例,非漫遊呼入時長佔總通話時長比例,組內貢獻,
每組人均月度應繳費額度,每組人均語音呼叫時間,每組人均語音呼叫時長的平均單價。
按消費層次細分\
欠費次數 應交費 優惠費 月租費 本地通話費 長途費 漫遊費 特服費 呼轉總時長 呼轉總次數 主叫時長 主叫次數
按消費時段細分
0 am ----- 1 am 通話次數 1 ---- 2 ......
男性比例,女性比例,平均年齡,
客戶基本資料,使用者基本資料,賬單資訊,本地通話資訊,長話通話資訊,結算資訊,
窄帶使用資訊,寬頻使用資訊,客服互動行為 ,繳費資訊,欠費資訊,服務使用資訊
基本資訊: 客戶身份資訊、****、產品擁有情況,使用者竣工時間、入網時長、服務開通情況、優惠**資訊、客戶服務資訊(投訴、諮詢、催繳情況)等
價值資訊: 話音、寬窄帶業務的月租費、使用費、優惠費用及增值業務、新業務、資訊費和卡類、結算費用,還包括了繳欠費資訊
行為資訊: 時長、次數、跳次、發話不同號碼數、時長集中度(撥打時長最多的三個號碼撥打時長在總時長中佔比)、次數集中度
///引用
另外資料探勘可以考察非常大的資料量,也就是說對於大量的資料可以自動的進行分析。並且可以幫助我們去學習新的潛在模式,也就是說我們用人工或者傳統的方法很難發現的一些規定。比如聚類分析,除了能夠有效地幫助我們劃分出特徵迥異的客戶群,並幫助我們發現決定客戶分群的主要屬性,實現對各客戶群特徵的深入洞察;同時,正是因為聚類分析能夠從眾多的維度去對客戶屬性作綜合考察,因此還能為我們揭示一些我們的經驗沒有發現的關係,或者對我們的經驗給以資料證實,而這些往往會給我們帶來一些有價值的意外收穫,例如在我們的案例中,我們發現擁有寬頻的客戶離網率會比較低,擁有增值業務的使用者新業務的滲透率較高,增值業務和新業務使用較多的使用者與移動使用者接觸較為頻繁,入網時長較短的客戶離網率高於老客戶,卡類使用者對**比較敏感但產品滲透率較高需求較旺盛,低值使用者產品滲透率也低,長途構成對arpu影響至關重要,長途和區間話務較易流失等等,這些對我們市場營銷都很有啟發意義。
///引用
Spark 聚類應用
spark 機器學習庫提供了包括聚類,分類,回歸,協同過濾,維度約簡等。使用 spark 機器學習庫來做機器學習工作,可 以說是非常的簡單,通常只需要在對原始資料進行處理後,然後直接呼叫相應的 api 就可以實現。spark ml 提供了乙個基於 dataframe 的機器學習工作流式 api 套件...
資料聚類的簡單應用
資料聚類的簡單應用 資料聚類data 1.聚類時常被用於資料量很大 data intensive 的應用中。2.聚類是無監督學習 unsupervised learning 的乙個例子。無監督學習演算法並不利用帶有正確答案的樣本資料 進行 訓練 它們的目的是要在一組資料中找尋某種結構,而這些資料本身...
聚類之層次聚類 基於劃分的聚類(
目錄 一層次聚類 層次聚類的原理及分類 層次聚類的流程 層次聚類的優缺點 二劃分聚類法k means kmeans演算法的原理 k均值的優缺點及分類 k means與dbscan的區別 k means注意問題 三基於密度的聚類 dbscan的概念 簇的生成原理及過程 根據資料點的密度分為三類點 db...