資料探索的第二個部分就是統計分析部分了。
根據第四章的知識,我們知道對於特徵子集的篩選,即對變數的篩選,我們有兩個大角度,乙個角度是從統計角度來看,乙個角度是從機器學習演算法的角度(正則化)來看。站在第二個角度的立場,我們是不用進行這麼複雜的統計分析的,直接跑模型即可。那麼接下來的內容,我們主要是站在第乙個角度的立場來看問題,順便了解一些統計方法。
統計分析又可以分為描述性分析以及推斷性分析兩個小部分。描述性的分析,往往是通過資料視覺化實現的。而推斷性統計分析,融合了抽樣、概率、假設檢驗等統計學理論,根據樣本來推斷中體的特性。
站在第乙個角度的立場,對於統計學習部分的回歸模型與演算法,一般都需要擇優選取一些與目標變數相關性較高的變數作為主要變數。在篩選這些主要變數時,會需要經過一些推斷性分析,尤其要對其概率分布做出嚴格的要求的模型;而對於機器學習、人工智慧中的其他非統計學習部分的模型與演算法,一般僅僅通過描述性分析即可。
接下來我將分別介紹描述性統計與推斷性統計分析。
1,概述
(1)資料型別
在統計分析中,變數可分為分類變數與數值變數兩大屬性的變數型別,如下圖所示。在不同型別的變數之間,其分析方式、統計方法也會有所差異。
(2)分析場景
通常,我們會對每個變數進行單變數分析,單變數分析主要是描述性統計,以及驗證分布的推斷性統計。
然後在進行兩兩變數之間的分析,並確定變數間有無相互影響,包括了描述性統計與驗證相關性的推斷性統計分析方法。
於是就會出現下面的五種場景。針對不同的場景,我們也會有不同的分析方法。
單變數分析
單變數分析方法與目標
雙變數分析
雙變數分析的方法
方法描述性統計 + 統計分布的正態性檢驗
分類變數與分類變數
列聯表、擬合優度、關係係數
數值變數
比如,是否需要把數值變數進行分組
分類變數與數值變數
方差分析、回歸分析
分類變數
比如,把黑吉遼三個省的變數合併為東北地區,是否更有利於分析
數值變數與數值變數
相關分析、回歸分析
2,描述性分析
(1)用於單變數分析的指標
我們先來看看,單變數分析中,常用的三類指標,包括,集中趨勢、離散趨勢、偏度與峰度。這些指標,都能用來描述一組資料的分布情況的,並且可以評價不同組之間的情況。
比如射擊運動中,a運動員射擊10次平均得到8環,而b運動員射擊10次平均得到9環。此處的平均即是集中趨勢的一種體現,用乙個指標來表示一組資料的平均水平。顯然從平均成績來看,b運動員要優於a運動員。
然而,如果a運動員的標準差要是比b運動員小的話,說明b運動員發揮不如a運動員穩定。而綜合兩個指標,就形成了新的指標,差異係數或變異係數 = 標準差/平均值 。接下來我們詳細介紹一下,這三類指標。
指標名稱
定義說明
算數平均數
一組資料的總和與個數之比
最常用,但是容易受到極端值的影響,且只適用於數值變數
中位數一組資料按大小排序,正中間位置的值即中位數(資料個數是偶數時,取正中間兩個資料的平均值)
不易受極端值的影響,且常與四分之一分為數,四分之三分位數一起使用,適用於數值變數以及分類變數中的有序變數
眾數一組資料中,出現次數最多的資料,即為眾數
眾數不唯一 ,且適用於數值與分類變數
指標名稱
定義說明方差s2=
e((x
−μ)2
)=1n
[(x1
−x‾)
2+(x
2−x‾
)2+.
..+(
xn−x
‾)2]
s^2=e((x-μ)^2)=\frac)^2+(x_2-\overline)^2+...+(x_n-\overline)^2]}
s2=e((
x−μ)
2)=n
1[(
x1−
x)2+
(x2
−x)2
+...
+(xn
−x)
2]方差與標準差都能反應一組資料的離散程度
標準差s=s
2s = \sqrt
s=s2極差
最大值減去最小值
易受極端值影響
四分位距(iqr)
四分之三分位數減去四分之一分位數
較穩定變異係數
標準差/均值
可以跨組比較離散情況,適用於數值型
離異係數
樣本量減去眾數出現的頻數後,與樣本量的比n−f
(mod
)n\frac
nn−f(
mod)
適用於名義變數
gini-simpson指數
g −s
=1−∑
i=1n
pi2g-s = 1- \sum_^n
g−s=1−
∑i=1
npi
2每個變數p
ip_i
pi出現的概率越平均,趨於相等,則離散程度越小,g-s值越小熵h=−
∑i=1
npi∗
lnpi
h = - \sum_^n
h=−∑i=
1np
i∗l
npi
物理學、資訊學概念
對於離散趨勢很嚴重的變數,尤其是分類變數,往往需要進行部分分類的合併,否則會影響建模。同時,對於集中趨勢很明顯的數值變數,也可能需要分組才能發揮變數更好的作用,或者該變數將不會產生太大的作用,可以將其剔除。
指標名稱
定義說明
偏度skew = e(x
−μσ)
3e(\frac)^3
e(σx−μ
)3skew > 0 右偏,skew < 0 左偏,skew = 0 正態分佈
峰度kurt = e(x
−μσ)
4e(\frac)^4
e(σx−μ
)4kurt > 3 厚尾,kurt < 3 瘦尾,kurt = 3 正態分佈
偏度與峰度可以用來初步判斷,乙個變數是否符合正態分佈。
(2)用於單變數或雙變數分析的視覺化圖表
描述性分析中,圖表有很多種,下面僅舉出一些具有代表性的圖表
重點需要區分一下條形圖與直方圖:
3,推斷性分析
(1)單變數正態性檢驗
無論是用指標—偏度與峰度,還是用描述性分析—直方圖與qq圖,都是定性的分析來判斷分布是否接近正態分佈。
精確的統計推斷,需要用到假設檢驗。
(2)雙變數相關性檢驗-分類變數與分類變數
(3)雙變數相關性檢驗-分類變數與數值變數
(4)雙變數相關性檢驗-數值變數與數值變數
上一節:第1章-資料探索(3)-資料預處理之r實現
資料的統計分析
資料預處理之後,我們要做一些統計分析,來觀察我們的資料,這其中包括 描述性分析 統計推斷。描述性分析 主要是統計指標 圖表。1 集中趨勢分析 除了分位數,我們還可以結合 中位數 眾數 平均數三者的關係。具體地 眾數在中位數左側,平均數在中位數右側,則此時資料呈正偏態分布,又叫右偏,存在極大異常值。是...
資料特徵分析 統計分析
統計分析是對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面分析。集中趨勢 指一組資料向某一中心靠攏的傾向,核心在於尋找資料的代表值或中心值 統計平均數 算數平均數和位置平均數 算術平均數 簡單算術平均數和權重算術平均數 位置平均數 中位數和眾數 離中趨勢 極差和分位差 標準差和方差 隨機生成整...
資料分析之統計分析基礎 1
變數型別和測量尺度 抽樣方法 參考書目 統計,顧名思義即將資訊統括起來進行計算的意思,對資料進行定量處理的理論與技術。統計分析常常指的是對收集到的有關資料資料進行整理歸檔並進行解釋的過程。按照功能標準劃分,可分為描述性統計和推斷統計。描述統計是將研究中所得的資料加以整理 歸類 簡化或繪製成圖表,以此...