航空客運資訊挖掘

2021-10-09 22:40:51 字數 2852 閱讀 6981

這個是泰迪杯資料探勘第一屆競賽中的賽題,博主在此是將官網上的優秀**進行了部分摘抄並做了乙個總結。

官網位址

題目:很多人都聽說過馬來西亞的亞洲航空、美國的西南航空等公司的大名。這些公司成功的秘訣就是擅於提高上座率。本例就是期望從航空公司感興趣的主題,例如流失**、客戶細分和客戶價值評估等方面,通過資料探勘技術,實現提公升航空客運的上座率目標。

附件資料集來自國內某航空公司的會員資料,共有62988個樣本,每個樣本有63個屬性,各屬性說明見「變數含義」sheet頁。除了每個客戶的基本資料外,該資料集還包含了乙個觀測窗(2年)內8個季度的使用者飛行資料,包括乘機次數、里程、積分等。參賽者可盡量使用任何的資料探勘技術來發現盡可能多的知識,建議的資料探勘主題包括但不限於建立客戶流失模型、客戶細分和客戶價值評估。

思路一

首先劃分出訓練集和測試集,在訓練集上建立使用者細分、使用者價值評估和流失**模型,區分客戶群,並提出相應的營銷策略。最後用測試集來檢驗,對模型的性質的評估。

使用者細分模型:篩選出 5 個 l、r、f、m、c 五個指標(根據文獻的來,後文會有解釋)作為航空公司客戶細分的核心維度,利用 lrfmc 聚類分析法進行使用者分群與初步評分。接著利用權重計算各客戶群綜合得分,從而將航空公司的客戶群體劃分成重要保持客戶、重要發展客戶、重要挽留客戶、忠誠型一般客戶、低價值客戶等五個級別的客戶群。

使用者價值評估模型:對 5 個客戶群的資料進行預處理,選擇對客戶價值影響最大的 14 個屬性,進行主成分分析,計算出各使用者群的綜合得分,作為價值排名依據。

客戶流失模型:定義了客戶回頭率這個概念(客戶第二年乘機次數與第一年乘機次數比值),以 0.5 和 0.8 為兩個臨界值將老客戶劃分為流失客戶、準流失客戶、未流失客戶三種客戶型別,並選取一些維度及其衍生出的維度,使用決策樹、神經網路兩種方法進行客戶流失模型的建立,並用將兩種方法進行對比,最終確定了影響客戶流失的幾個比較重要因素有平均折扣率、單位里程票價和單位里程所得積分。

思路一的補充

思路一的文獻資料

思路一的**亮點

思路二

本文基於國內某航空公司超過 60000 個會員資料,結合現有成熟的客戶管理模型,在對資料樣本集進行預處理後通過數理統計的方法對樣本屬性進行相關性分析,挑選出對構建行為忠誠度模型高影響的因子,構建客戶的忠誠度價值模型。同時基於客戶價值區分 rfm 分析法,建立基於均值的 rfm 模型、基於聚類的 rfm 模型和基於 pca 處理後的 rfm 模型對客戶價值水平分類,且評估三種不同的方法在客戶分類上的側重點。

步驟一:樣本資料預處理。去除與構建的模型無關的屬性,刪除有缺失值的樣本。

步驟二:pearson 積矩係數分析,提取強相關性的因子。篩選出來的屬性分別有 3 大類:(1)客戶近期交易時間;(2)客戶交易頻率;(3)客戶交易金額。其中,(1)中具有客戶距離前一次飛行間隔時間、客戶平均飛行間隔、客戶乘機最大時間間隔三個屬性。(2)中具有前一季飛行次數、前四季飛行次數、前八季飛行次數三個屬性。(3)由步驟二的 pearson 求相關性可知,客戶交易金額與客戶的積分具有強相關性。所以利用客戶的積分(具有前一季積分總額、前四季積分總額、前八季積分總額三個屬性)來替換客戶交易金額。

步驟三:構建客戶的忠誠度模型。l = t * n * i。其中,l 表示忠誠度模型,t 表示客戶近期交易時間,n 表示客戶交易頻率,i 表示客戶積分,「 * 」表示 t、n、i 三個屬性之間相同的資料樣本客戶之間的聚集。(這裡博主也沒有明白**作業的意思,應該是說當t、n、i都相同的時候,l就相同)

步驟四:建立均值 rfm 模型對客戶分類。將客戶分類定義為可保持、低價值、有潛力、要挽留四大類。

步驟五:建立 k-means rfm 模型對客戶分類。

步驟六:建立 pca rfm 模型對客戶分類。

思路二模型補充

模型亮點

思路三

對樣本資料進行挖掘進行客戶流失**、客戶細分及客戶價值評估。 建立 rfm 模型將客戶劃分為重要保持客戶、重要發展客戶、重要挽留客戶、忠誠型一般客戶、低價值客戶五個類別。最後,綜合分析客戶的型別和流失狀態。針對不同的客戶,可以採取不同的營銷活動來提高上座率:

思路三模型補充

思路三亮點

思路四

當前的客戶關係管理主要基於 rfm模型。但是,第一方面,該方法只選擇客戶屬性中的 r(最近一次消費)、f(消費頻率) 、m(消費金額)這 3 個屬性對客戶進行分類,並不能根據價值以外的客戶消費特徵進行更精確和細緻的分類;第二方面,使用傳統的聚類方法只能對全域性特徵相似的客戶群體進行分類,並不能有效對區域性特徵相似的客戶群體進行分類。針對以上問題,本文基於卡方統計量和關聯規則提出了一種高效的雙聚類方法,該方法基於卡方統計量得到多個有分析意義的屬性集,再進行基於密度的 dbscan 演算法進行群體聚類,將客戶大體上分為高,中,低三等,最後分別由演算法進行客戶行為特徵聚類。

步驟一:資料預處理,根據經營策略選擇評價屬性,對所有屬性與評價屬性之間進行相關性分析,去除屬性集中的弱相關項與冗餘項從而達到資料簡化的目的。

步驟二:群體聚類,用 k-means 演算法將每個屬性的原始資料劃分為三個級別(1,2,3),再由基於密度可達的 dbscan 演算法進行客戶聚類,將所有客戶大體上分為高,中,低三個等級。

步驟三:行為特徵聚類,用雙聚類分別對步驟二的三個等級的聚類結果分別做行為特徵聚類,採用基於了基於 apriori 的雙聚類和 fp-growth 的雙聚類。

步驟四:結果分析,挖掘最終聚類結果中的資訊並提出相應的營銷策略。

思路四補充

思路四亮點

航空客運訂票系統

通過此系統可以實現如下功能 錄入 可以錄入航班情況 資料可以儲存在乙個資料檔案中,資料結構 具體資料自定 查詢 可以查詢某個航線的情況 如,輸入航班號,查詢起降時間,起飛抵達城市,航班票價,票價折扣,確定航班是否滿倉 可以輸入起飛抵達城市,查詢飛機航班情況 訂票 訂票情況可以存在乙個資料檔案中,結構...

航空行業 客運平穩收官 國際貨運拉動明顯

全球概覽 11月,全球航空業貨運增速高於客運增速 需求方面,歐洲客貨運,北美客運及非洲客運增速仍處於負增長狀態 供需方面來看除非洲市場外,全球主要市場需求增速均超供給增速,預計緩慢回公升趨勢不變。國內概況 12月總周轉量增速翹尾達30 主要受貨運拉動 貨運周轉量 貨運量增速分別為55 和47 其中國...

位置資訊挖掘

題目內容 o2o即online to offline,是指將線下的商務機會與網際網路結合,讓網際網路成為線下交易的前台。這些商務機會主要是偏服務類的商品,例如汽車售後服務 攝影服務 餐飲 電影等,其特色是線上購買 線下服務。現在,jason給出使用者在移動端的購買行為資料,以及商品集合,希望能補全一...