上一節講了r語言作圖,本節來講講當你拿到乙個資料集的時候怎樣下手分析,資料分析的第一步。探索性資料分析。
統計量,即統計學裡面關注的資料集的幾個指標。經常使用的例如以下:最小值,最大值,四分位數,均值,中位數,眾數,方差,標準差。極差,偏度,峰度
先來解釋一下各個量得含義,淺顯就不說了,這裡主要說一下不常見的
眾數:出現次數最多的
方差:每乙個樣本值與均值的差得平方和的平均數
標準差:又稱均方差,是方差的二次方根。用來衡量乙個資料集的集中性
極差:最大值與最小值僅僅差
偏度:相對於正態分佈而言假設波峰出如今左邊,就表明長尾出如今右邊。成為右偏態(正偏態)偏度值》0,分布反之為左偏太(負偏態)偏度值<0
峰度:也是相對於正太分布的。正態分佈的峰度為3。假設峰度》3圖形越胖,越矮。稱為厚尾。峰度<3 圖形越瘦,越高,稱為瘦尾
我們採用mass包的insurance資料集,該資料集為某保險公司的車險資料。
"district" "group" "age" "holders" "claims"
按列一次表示:家庭住址區域。投保汽車排量,投保人年齡,投保人數量,要求索賠的數量
安裝包與載入資料集:
install.pacakges('mass') # 安裝包
library(mass) #載入包
data(insurance) # 載入資料集
ins
r包自帶的函式summary能夠給出資料的概括:
summary(ins)
district group age holders claims
1:16 <1l :16 <25 :16 min. : 3.00 min. : 0.00
2:16 1-1.5l:16 25-29:16 1st qu.: 46.75 1st qu.: 9.50
3:16 1.5-2l:16 30-35:16 median : 136.00 median : 22.00
4:16 >2l :16 >35 :16 mean : 364.98 mean : 49.23
3rd qu.:327.50 3rd qu.: 55.50
max. :3582.00 max. :400.00
我們發現對於因子型別向量該方法給出了頻度分布,對於連續型變數該方法給出了,最小值。第一四分位數。中位數,均值,第三四分位數,最大值
點圖看的可能不是非常直觀,我們期望直觀的看到資料的變化,能夠通過直方圖來展示:
方差與標準差
來計算holders列的方差和標準差:
var(ins$holders)
sd(ins$holders)
事實上單變數的方差和標準差是沒有太大意義的。對照才幹夠看出資料集的異同。
假設我們要分析使用者依照年齡分組後的統計值該怎樣計算呢。aggregate函式為我們提供了非常好的方法例如以下:
agg
pie(agg$claims,labels=agg$age)
agg
age holders claims
1 <25 80.41797 16.55181
2 25-29 141.11414 22.63184
3 30-35 177.34353 24.23694
4 >35 941.66603 103.52228
相當於依照age列 group by 後的分組統計量。
偏度和峰度:
為了計算偏度和峰度我們能夠自己實現函式stat例如以下:
statholders claims
n 64.000000 64.000000
mean 364.984375 49.234375
stdev 622.770601 71.162399
skew 3.127833 2.877292
kurtosis 10.999610 9.377258
我們能夠看到,holders和claims的偏度都是大於零的,那麼就是說明,這兩個變數都是正偏態分布也就是說資料偏向左邊,而峰度值都非常高。那麼說明這兩個變數都存在離群點。
同樣,我們可以使用的開箱圖觀察,本節已經介紹,這裡不再贅述。
R語言資料分析系列之五
本節來討論一下r語言的基本圖形展示,先來看一張效果圖吧。這是一張用r語言生成的,虛擬的wordcloud雲圖,具體實現細節請參見我的github專案 好了我們開始今天的旅程吧 本節用到的包有 rcolorbrewer用來生成序列顏色值,plotrix三維圖形 本節用到的資料集 vcd包中的arthr...
R語言資料分析系列之五
本節來討論一下r語言的基本圖形展示,先來看一張效果圖吧。這是一張用r語言生成的,虛擬的wordcloud雲圖,詳細實現細節請參見我的github專案 好了我們開始今天的旅程吧 本節用到的包有 rcolorbrewer用來生成序列顏色值,plotrix三維圖形 本節用到的資料集 vcd包中的arthr...
R語言 資料分析
二 大資料分析 三 資料分析常用工具 資料分析是指用適當的統計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發資料資料的功能,發揮資料的作用。資料分析是為了驗證假設的問題,需要提供必要的資料驗證。分析模型構建完成後,需要利用測試資料驗證模型的正確性。資料分析是為了挖掘更多的問題,並...