寬頻離網使用者分析(1) 任務介紹

2021-07-04 07:04:03 字數 1949 閱讀 7915

接下來把幾個研究生階段的專案中所用到的關鍵技術分別做介紹,一來對這些專案的技術做個整理,理清思路,二來也為接下來的應聘做準備。這裡先介紹研一做的第乙個專案——寬頻離網使用者分析。

巧婦難為無公尺之炊,在我們介紹真正的業務目的之前,我們還是先來看看我們有哪些資料,只有知道我們有了哪些菜,我們才能看菜吃飯~

我們的資料是電信的後台資料,什麼叫後台資料呢?那就是和」前台「對立的資料,所謂」前台資料「,我們可以理解為電信運營商的使用者資料,包括使用者的身份證號、年齡、職業甚至收入等。不僅如此,還包括使用者的消費記錄、撥打**的記錄等,其實這些資料都直接和電信的營銷業務相關,所以稱為」前台資料「。而後台資料我們可以理解為和營銷業務不相關的在後台獲取的資料。

具體的資料項包括:

其實用後台資料做資料探勘任務的好處就是,一方面和使用者行為密切相關,另一方面有不會涉及太多的文字型的使用者隱私。

當然還有乙個欄位是使用者的唯一標示咯,我們取的是徐州市的70萬寬頻使用者的資訊。我們有10個月的資料,大概有100g的資料,其實大部分是使用者上下線的資料(因為使用者每上下線一次就有一條記錄,資料量很大)。

現在重頭戲——我們的任務來了,我們需要**這70萬的使用者哪些會」離網「,所謂」離網「就是停用寬頻業務。這裡插一句,上面的字段是我和電信的專業人員討論以後篩選出來的可能與使用者離網行為相關的資料項,實際電信後台資料遠不止這些~omg!

所以我們任務的全稱是——電信寬頻離網使用者分析。

不過就這麼結束了內容太空洞啦,我們還是稍微涉及一下資料探勘技術吧,來講講precision和recall。

這方面資料有的是,我這裡僅僅從離網使用者分析的角度出發來講講這些指標。

.實際離網使用者

實際非離網使用者

**為離網使用者true positive(tp)

false positive(fp)

**為非離網使用者false negative(fn)

true negative(tn)

你只要知道true和false意味著是否**正確,而positive和negative是說實際上是不是目標群體。

而precisoin = tp/tp+fp,也就是說被我**成離網使用者的人裡面,多少真正會離網。recall = tp/tp+fn,也就是說實際離網的使用者裡面,有多少真正被我**出來了。f1-measure= 2p*r/(p + r),這裡p和r分別指precision和recall,不難看出,f1-measure是precision和recall的綜合。

對於本任務,我們怎麼樣才算**的好,怎樣才算不好呢?最好的結果當然是沒有false,只有true,那precision和recall都是100%,但是實際**往往達不到這種效果,而且往往precision和recall存在某種」制衡「關係,對precision效能的提高往往會導致recall的下降,所以人們才想到用f1-measure來權衡這兩個指標。

但是實際情況中,人們對precision和recall的偏好往往不一樣,本例子就很典型。

電信企業**離網使用者是為什麼?無非是挽留使用者,怎麼挽留使用者呢,肯定要採取某些讓利手段,換句話說,」挽留「是有成本的,70萬使用者每個月實際會有1萬使用者離網,大家看看下面哪種情況電信企業更能接受:

a:**出20萬使用者可能離網,保證99%的實際離網使用者都在裡面(precsion:5%,recall:99%)。

b:**出2000個使用者可能離網,只能保證10%的實際離網使用者在裡面,也就是說裡面有1000個左右會實際離網(precision:50%,recall:10%)。

考慮到挽留使用者的成本,企業可能對b結果更感興趣,雖然我只能對10%的實際離網使用者進行挽留,但是我可以保證我挽留付出的命中率達到50%。在a方案中,卻需要對70萬總使用者中的20萬進行挽留,哪怕我能保證99%的離網使用者都被挽留措施覆蓋,這對企業來說也是不可接受的(挽留措施本身還有成功率)。

寬頻離網使用者分析(2) 資料預處理和特徵抽取

在討論資料預處理的方式之前,我們還是需要把具體的資料項列出來以便觀察。這裡 多源 的意思就是這些資料來自後台不同的部門,有負責硬體網路的,也有維護使用者使用記錄的部門。由於 任務注重的是precision值,為了保證 效能,很多資料不全的使用者我們直接篩掉。這裡需要作出說明的是,埠速率和線路穩定的資...

1 社交使用者關係分析

需求 求出有共同好友的使用者對及他們的共同好友,如 1 獲取所有使用者對應的好友數量 取人緣最好的使用者 2 獲取制定兩個使用者的共同好友 3 獲取所有人的好友資訊 a b,c,d,f,e,o b a,c,e,k c f,a,d,i d a,e,f,l e b,c,d,m,l f a,b,c,d,e...

系統使用者許可權與角色分析 1

一 術語說明 1 使用者與角色 使用者與角色是使用許可權的基本單位,角色是一組具有相同限限的使用者變集。使用者與使用者之間不存在相互隸屬關係,它只能屬於某個角色,角色可以隸屬於其它角色,且可以為多重隸屬關係。2 應用模組 應用模組通常是指某個頁面 在web中 如統計報表頁面,使用者資訊頁面等等。3 ...