(術語是幫助我們開啟思路,通過多個角度對資料進行深度解讀,資料分析師不能僅僅靠著對資料的一種感覺和敏感來進行資料分析,這樣的主觀性太強,在合理必要的情況下,使用前人已經總結和使用的方法往往對我們更有幫助,但也要記住不要陷入這個指標誤區中,核心還在於人(但不是讓你憑感覺作分析),在於人對待問題的思考方式,解決辦法。
今天來說說描述性統計分析,統計性描述分析是作為統計分析的第一步,在日常的資料分析中其實我們經常使用一些特徵值,尤其是我們做週報或者月報的分析時,這些描述性的統計分析特徵值對於我們有一定的幫助,描述性統計分析是進行正確的統計推斷的先決條件。通過資料的分布型別和特點、集中和離散程度可進行初步分析。
鄙人經常使用excel或者spss進行描述性的統計分析,描述性的統計分析包括資料收集、整理、顯示,對資料資訊的初步提取分析,在spss中我們有專門的描述性分析,其中涉及了很多的統計量,今天就索性把這些都列出來,給大家參考學習一下,需要說明的是這裡列出來的不代表你就必須使用這些統計量,還是要根據業務的需要,適當的選取參考的統計量指標,這些指標是幫助我們分析資料異動,變化的「工具」,但請不要陷入指標的誤區,每個指標的使用都是有一定的適用範圍,大家需謹慎使用。
集中趨勢:平均數(算數平均數、幾何平均數、調和平均數、算術-幾何平均數、平均數不等式)、眾數、中位數等。
離散程度:全距、內距、平均差、標準誤、離散係數等。
分布:偏態係數、峰度係數,反映資料偏離正態分佈的程度。
首先來看平均數,平均數是統計學最常用的統計量,用於表示各觀測值相對集中較多的中心位置,可以說是對資料集中趨勢的反映,通常情況下初學者容易把平均數認為一組資料之和除以該組資料的個數,其實這樣認識是有一定問題的,嚴格來說,平均數包括算數平均數、幾何平均數、調和平均數、眾數和中位數。具體的來看一下每個平均數的定義,適用範圍。
算數平均數:各觀測值的總和除以觀測值個數所得的商,簡稱平均數或均數,在統計學上的優點就是它較中位數、眾數更少受到隨機因素影響,缺點是它更容易受到極端數影響。比如在遊戲日活躍人數方面,不同的遊戲的活躍波動幅度是不同的,有的遊戲會出現明顯的異動和極值情況,比如一周內,周
五、週六和週日的日活躍和pcu非常高,那麼我們在計算這一周7天的平均日活躍時最好是不要計算一周的算數平均數,當然波動幅度不是非常大還是可以使用的,如下圖所示的兩款遊戲的日活躍曲線,a遊戲最好分開計算週末和平日的日活躍,b遊戲則不需要分開計算。
a遊戲
b遊戲
(幾何平均數:n個變數值連乘積的n次方根,適用於對比率資料的平均,並主要用於計算資料平均增長(變化)率。
如下圖所示的dau-1和dau-2的波動率就是使用了幾何平均數來進行的計算,在excel中有專門的統計函式計算幾何平均數geomean(),通過對環比-dau-1和環比-dau-2進行幾何平均數的計算得到兩個波動率,來衡量資料在每天的波動情況,進而進行下一步深入的分析過程。
(調和平均數:求一組數值的平均數的方法中的一種,一般是在計算平均速率時使用,在遊戲資料分析方面暫時沒有想到應用之處。
眾數:指一組資料**現次數最多的那個資料,一組資料可以有多個眾數,也可以沒有眾數。從分布角度看,眾數是具有明顯集中趨勢的數值。眾數不受極大或極小值的影響。眾數的計算只有在總體比較多,而且又是明顯集中於某個變數值時才具有意義,舉個例子,比如我們看待遊戲中交易成交的**是多少,就可以利用計算眾數幫助分析。
(中位數:將資料按大小順序排列起來,形成乙個數列,居於數列中間位置的那個資料。所研究的資料中有一半小於中位數,一半大於中位數。中位數的作用與算術平均數相近,也是作為所研究資料的代表值。在乙個等差數列或乙個正態分佈數列中,中位數就等於算術平均數。
在數列**現了極端變數值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變數值的影響;如果研究目的就是為了反映中間水平,當然也應該用中位數。在統計資料的處理和分析時,可結合使用中位數。
在玩家的金幣存留和消耗方面,我們會使用中位數作為一種輔助的分析思路,玩家的消費能力和充值能力會受到個人的能力等其他因素的影響,那麼意味著這其中必然存在低端消費充值,也存在高階的消費充值,在使用算數平均數計算arpu的同時,我們也利用中位數進行性付費客群的消費和充值的劃分和研究,究竟在付費使用者金子塔中,50%的消費充值居於什麼樣的水平,和arpu的計算究竟差多少,如果是嚴格的正態分佈,那麼arpu和中位數應該是一致的,但實際肯定不一致,我們要看看這個峰度係數究竟是多少,當然只看這個是不夠的,在眾數存在的情況下,結合這幾個指標,橫向和縱向的對比分析,能夠幫助我們開啟一下思路進行分析。
(全距:最大值與最小值之間的差距,離散程度的最簡單測度值,易受極端值影響。
內距(四分位差):將一組資料從小到大公升序排列,分成4等分,出於1/4,1/2,3/4的數就是四分位數,有關四分位數的一些內容可以參考箱線圖那篇文章內容的描述。
平均差:總體所有單位與其算術平均數的離差絕對值的算術平均數。平均差是一種平均離差。離差是總體各單位的標誌值與算術平均數之差。因離差和為零,離差的平均數不能將離差和除以離差的個數求得,而必須講離差取絕對數來消除正負號。
平均差是反應各標誌值與算術平均數之間的平均差異。平均差異大,表明各標誌值與算術平均數的差異程度越大,該算術平均數的代表性就越小;平均差越小,表明各標誌值與算術平均數的差異程度越小,該算術平均數的代表性就越大。
(標準誤:樣本均數的標準差,是描述均數抽樣分布的離散程度及衡量均數抽樣誤差大小的尺度,反映的是樣本均數之間的變異。標準誤不是標準差,是多個樣本平均數的標準差。
標準誤用來衡量抽樣誤差。標準誤越小,表明樣本統計量與總體引數的值越接近,樣本對總體越有代表性,用樣本統計量推斷總體引數的可靠度越大。因此,標準誤是統計推斷可靠性的指標。
(離散係數:又稱變異係數,是統計學當中的常用統計指標,主要用於比較不同水平的變數數列的離散程度及平均數的代表性。
變異係數是衡量資料中各觀測值變異程度的乙個統計量。當進行兩個或多個資料變異程度的比較時,如果度量單位與平均數相同,可以直接利用標準差來比較。如果單位和(或)平均數不同時,比較其變異程度就不能採用標準差,而需採用標準差與平均數的比值(相對值)來比較。
(偏態係數:以平均值與中位數之差對標準差之比率來衡量偏斜的程度,偏態係數小於0,因為平均數在眾數之左,是一種左偏的分布,又稱為負偏。偏態係數大於0,因為均值在眾數之右,是一種右偏的分布,又稱為正偏。偏態係數是根據眾數、中位數與均值各自的性質,通過比較眾數或中位數與均值來衡量偏斜度的。
(峰度係數:用四階中心矩來測定峰度的,反映頻數分布曲線頂端尖峭或扁平程度的指標,在正態分佈情況下,峰度系數值是0。正的峰度係數說明觀察量更集中,有比正態分佈更長的尾部;負的峰度係數說明觀測量不那麼集中,有比正態分佈更短的尾部
(標準差:方差的算術平方根,反映組內個體間的離散程度。一組資料的平均值及標準差常常同時作為參考的依據。從某種意義上說,如果用平均值來考量數值的中心的話,則標準差也就是對統計的分散度的乙個"自然"的測度。
(方差:描述離散程度,也就是該變數離其期望值的距離。
( 近期會給大家說說怎麼通過spss進行描述性分析,大家可以自己看看研究一下,其實很簡單,我只是做個帖子幫助新人熱熱身。
描述性統計學
描述性統計學是資料分析的基礎內容,雖是基礎,但是不能忽視,資料中最初展示的資訊往往就是利用描述性統計學總結出來的。描述性統計學回顧 描述性統計學有五個重要的指標 1,平均值 2,四分位數 3,標準差 4,變異係數 5,標準分 1,平均值 平均值的統計學意義很簡單,就是求一組資料的平均數 雖然平均數簡...
資料的描述性統計
對資料的描述分為三個維度,分別是 資料的集中趨勢 資料的離中趨勢和資料的分布形態。描述資料集中趨勢的指標有眾數 中位數和平均數,其中平均數又分為算數平均數 加權平均數和幾何平均數 眾數資料集合 現次數最多的數值被稱為眾數。如果乙個資料集合中,只有乙個數值出現最多,那麼這個數值就是該資料集合的眾數。眾...
描述性統計分析
描述性統計分析對調查總體所有變數的有關資料進行統計性描述,主要包括資料的頻數分析 集中趨勢分析 離散程度分析 分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一 分類變數的常用描述指標 頻數 在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變數的頻數...