從今天開始,特開闢乙個小專欄,題目暫定為小白學資料分析,鄙人不才,在資料分析的道路上走的崎嶇坎坷,同時資料分析本身是乙個多面和複雜的工作,要懂得理論(統計、概率、資料探勘、演算法、模型)更要懂得業務,懂得行業理論,還要有靈活多變的思維,想想還是很複雜和麻煩的,所講內容不但是理論,不僅是資料,盡量把這些東西綜合起來,立體的來看,鄙人水平有限,很多的內容是嘗試和改進,參考了很多的材料,在木有高人指點和牛人幫助的情況下,我只能借助浩瀚的網路知識和自己的悟性,今天決心拿出來給各位主要是幫助大家和我一起進步。
第一天就從乙份資料的分析開始,這裡面涉及了很多的內容,大家需要慢慢理解。
案例:某位網友提供了乙份遊戲的日活躍賬號數的資料資訊,遊戲是從2023年9月份開始了測試,到2023年2月,但是產品究竟表現如何,從plc(產品生命週期----《營銷管理》)來看,產品目前處於乙個什麼時期,下一步怎麼來做營銷和運營工作,這是乙個需要關注的問題。今天就從日活躍這個資料指標的解析上簡單看看plc的解讀。
設計分析的資料指標有很多方面,總體來說就兩塊,收入+人氣,我們就從對人氣的分析上下手,考慮文章篇幅關係,今天單列每日活躍的分析過程,其他指標的把握和分析基本和此相同,大家可以自己嘗試完成。
術語解釋:
每日活躍使用者(dau):每日登入過遊戲的玩家數量(重複登入者不累加)
ib:item-billing,遊戲中通過遊戲幣交易流通的道具
apa:活躍付費賬號數
plc:產品生命週期-----《營銷管理》
arpu:平均每名玩家盈利能力
新登使用者:每日註冊成為遊戲玩家的數量
每日有效新登使用者:達到註冊並成功登入進行過遊戲的玩家數量
為什麼要看每日活躍使用者?
拋開遊戲上線初期的推廣營銷因素影響後,版本隨後會進入真正意義上的成長和發展階段,這個階段也是對於遊戲品質和開始階段投放影響的評估(當然這種靠推廣的影響會存在一定的時效性,在對於dau分析時,要拋開這個階段)。每日活躍使用者的變化說明以下的原因:
人氣波動:建立每日活躍人數的彈性數值區間(閾值),當然這點的預警要按照每個月的具體情況來看,比如每個月的節日,假期,學生開學等其他因素的影響情況,建立一套因素影響指數,並作用於人氣波動的預警。
產品質量:從日活躍的趨勢變化和人氣波動等其他因素綜合看產品版本更新,活動設定等對於產品的plc的影響,以及產品質量是否符合玩家的預期(質量的定義很廣泛,這裡比如ib設計,系統設計,互動體驗等等)。
影響因素:正如剛才所言,我們綜合乙個週期的日活躍資料 和其他資料制定影響因素指數,便於巨集觀把控資料的變化,比如進入預警範圍的資料究竟因為這些影響因素的影響有多大。做到心中有數。
當然,以上是簡單的列舉了一下日活躍使用者參與的資料分析的幾個方面和作用,對於資料分析千萬不能侷限在乙個指標而進行所謂的分析,要全面的結合其他指標進行衡量和分析。比如新登使用者,收入資料(充值,arpu,apa等等)。
怎麼來分析dau?
如之前文章所說,我們主要運用曲線圖和箱線圖來分析dau資料,如下圖,使用ibm spss 19進行箱線圖的分析(其詳細過程以後在敘述)。
再次箱線圖中涉及幾個術語指標,先給各位再解釋一下:
方差:度量隨機變數和其數學期望(即均值)之間的偏離程度,測度資料變異(離散)程度的最重要的指標,方差是各個資料與其算術平均數的離差平方和的平均數,通常以σ2表示。方差的計量單位和量綱不便於從經濟意義上進行解釋,所以實際統計工作中多用方差的算術平方根——標準差來測度統計資料的差異程度。
(方差和標準差也是根據全部資料計算的,它反映了每個資料與其均值相比平均相差的數值,因此它能準確地反映出資料的離散程度。比如,平均日活躍為a,通過方差判定整個這個月的dau波動情況,以及距離a的離散程度。
期望:廣義的來說,是指人們對每樣東西的提前勾畫出的一種標準,達到了這個標準就是達到了期望值。從概率論和統計學中,離散型隨機變數的一切可能的取值xi與對應的概率pi(=xi)之積的和稱為該離散型隨機變數的數學期望(設級數絕對收斂),記為e(x)(我們多數情況下只討論離散型期望。
中位數:中位數是指將資料按大小順序排列起來,形成乙個數列,居於數列中間位置的那個資料。中位數用me表示。
從中位數的定義可知,所研究的資料中有一半小於中位數,一半大於中位數。中位數的作用與算術平均數相近,也是作為所研究資料的代表值。在乙個等差數列或乙個正態分佈數列中,中位數就等於算術平均數。
在數列中出現了極端變數值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變數值的影響;如果研究目的就是為了反映中間水平,當然也應該用中位數。在統計資料的處理和分析時,可結合使用中位數。
(四分位數:將資料劃分為4個部分,每乙個部分大約包含有1/4即25%的資料項。這種劃分的臨界點即為四分位數。它們定義如下:
q1=第1四分位數,即第25百分位數;
q2=第2四分位數,即第50百分位數;
q3=第3四分位數,即第75百分位數。
(四分位差:四分位差又稱內距、也稱四分間距(inter-quartile range),是指將各個變數值按大小順序排列,然後將此數列分成四等份,所得第三個四分位上的值與第乙個四分位上的值的差。四分位差用公式表示:
q = q3 − q1
其中:q1的位置=(n+1)/4
q3的位置=3(n+1)/4
四分位差反映了中間50%資料的離散程度。其數值越小,說明中間的資料越集中;數值越大,說明中間的資料越分散。與極差(最大值與最小值之差)相比,四分位差不受極值的影響。此外,由於中位數處於資料的中間位置,因此四分位差的大小在一定程度上也說明了中位數對一組資料的代表程度。主要用於測度順序資料的離散程度。當然,對於數值型資料也可以計算四分位差,但不適合於分類資料。
(其以上的幾個資訊的示意圖如下所示(
下面我們從這個箱線圖來分析一下dau的近期變化情況
除了2012-jan以外,都沒有離群點或者極限值,相對而言,每個月遊戲人數整體比較穩定,沒有發生巨大的變化。而在2012-jan出現了兩個離群值,調查發現,是1月4日和1月5日出現的問題。經過ccu曲線分析,發現關鍵節點資料變化很小,但是24小時總體出現微下降,說明玩家4日和5日的活躍資料被稀釋了,此外,通過對競品的分析發現4日和5日有線上領取活動,再者,節後兩天學生基本需要返校和白領休假歸來,造成資料暫時下滑。
9月份為開始測試的月份,而2月份為假期階段,因此玩家上線的意願相對來說會比較高一些。這也是在意料之中的情況。
然而11年的11月份和12月份,中位數偏低,玩家上線意願不夠強烈,11月份已經非常低了,主要原因在於這一時期玩家進入考試週期,四六級,中期考試等等,屬於淡季階段。
11年10月份國慶節期間,玩家上線意願還算不錯,但是沒有達到理想的效果,中位數低於平均水平,因此國慶假期的活動或者推廣效果不是非常理想,間接也導致了下個月下滑的非常迅速,因此下次節日活動需要進行重新評估和調整。資料如下:
對於12年一月份的表現算是情理中,今年由於1月份過年,然而過年7天玩家的遊戲時間其實是縮水的,沒有太多精力投入遊戲,但是從箱線圖來看,表現還算正常。高於平均水平,活動效果應該比較不錯,一月份雖然出現了兩個離群值,但是一月份的標準差是最小的,也就是說一月份整體的活躍趨勢穩定,沒有大的波動。
總體來看,如果要考察plc,需要結合收益資料,以及其他的諸如acu,pcu,新登等資料來綜合看待plc,但是從dau來看(狹義來說),人氣在幾個月來保持相對的穩定,但是整體上經歷了小幅的下滑,換個角度說,這款產品存在一些問題,人氣持續穩中有降,可以說玩家度過初級的新手期後,中間的成長、競爭、追求階段出現了問題,訴求不能滿足,導致人氣下滑。更加詳細具體的原因需要更多的資料綜合分析。
注:以上分析皆建立在與資料的對比之上和其他輔助的資料綜合分析上,當分析者單純觀察一段資料時,不能通過中位數高低輕易下定論認為使用者上線頻繁與否。需要考慮很多的客觀因素。
明天我們說說怎麼再從曲線圖來分析一下這幾個月的日活躍變化情況。
小白學資料分析 什麼是活躍 I DAU
最近和幾個人聊天,大家對於活躍都有著自己的看法,此外因為一些標準的問題,不熟悉分析術語的很多人把活躍,留存等很多資訊都搞混了.後來發現這是乙個很現實的問題。在一些我 看來不是問題的問題都變成了問題了,因此在此特地說說活躍的事,幫助更多從事遊戲資料分析的小白們成長。究竟什麼是活躍?在日常與外界合作過程...
小白學資料分析 什麼是活躍 I DAU
最近和幾個人聊天,大家對於活躍都有著自己的看法,此外因為一些標準的問題,不熟悉分析術語的很多人把活躍,留存等很多資訊都搞混了.後來發現這是乙個很現實的問題。在一些我 看來不是問題的問題都變成了問題了,因此在此特地說說活躍的事,幫助更多從事遊戲資料分析的小白們成長。究竟什麼是活躍?在日常與外界合作過程...
小白學資料分析 DNU DAU
行業指標觀察分析 dnu dau 寫在分析之前 一直以來,我們對於資料都是在做加法,也希望這個過程中,不斷蒐羅和變換出來更多的資料指標,維度等等。而在實際的分析中,我們發現,一如我們給使用者提供產品一樣,太多的時候,我們思考的是如何增加功能,而產品的核心功能和訴求,卻越來越遠。最近有幸和一些團隊在做...