基於R語言的資料分析和挖掘方法總結 描述性統計

2022-07-17 08:48:11 字數 2463 閱讀 2505

描述性統計包含多種基本描述統計量,讓使用者對於資料結構可以有乙個初步的認識。

在此所提供之統計量包含:

使用者可選擇多個變數同時進行計算,亦可選擇分組變數進行多組別的統計量計算。

例如:

> mean(nile)

[1] 919.35

中位數描述資料中心位置的數字特徵。大體上比中位數大或小的資料個數為整個資料的一半。對於對稱分布的資料,均值與中位數比較接近;對於偏態分布的資料,均值與中位數不同。中位數的又一顯著特點是不受異常值得影響,具有穩健性,因此它是資料分析中相當重要的統計量。

例如:

> median(nile)

[1] 893.5

眾數(mode),在統計分布上具有明顯集中趨勢點的數值,代表資料的一般水平(眾數可以不存在或多於乙個)。

樣本中各資料與樣本平均數的差的平方和的平均數叫做樣本方差;樣本方差的算術平方根叫做樣本標準差。樣本方差和樣本標準差都是衡量乙個樣本波動大小的量,樣本方差或樣本標準差越大,樣本資料的波動就越大。

在概率論和統計學中,變異係數,又稱「離散係數」,是概率分布離散程度的乙個歸一化量度。

σ:標準差,μ:平均值

例如:

> sd(nile)/mean(nile)

[1] 0.184073

全距(range),又稱極差,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距;即最大值減最小值後所得之資料。

全距可以用ω(讀做omega)來表示。

ω:全距,x_h:最大值,x_l:最小值

內四分位距(interquartile range, iqr),是描述統計學中的一種方法,以確定第三四分位數和第一四分位數的分別(即q_1, q_3的差距)。與方差、標準差一樣,表示統計資料中各變數分散情形,但四分差更多為一種穩健統計(robust statistic)。

四分位距:iqr=q3-q1

四分位差:qd=(q3-q1)/2

例如

> quantile(nile)

0% 25% 50% 75% 100%

456.0 798.5 893.5 1032.5 1370.0

> fivenum(nile)

[1] 456.0 798.0 893.5 1035.0 1370.0

在統計學中,峰度(kurtosis)又稱峰態係數,用來衡量實數隨機變數概率分布的峰態。峰度高就意味著方差增大是由低頻度的大於或小於平均值的極端差值引起的。峰度刻劃不同型別的分布的集中和分散程式。設分布函式f(x)有中心矩μ_2, μ_4,則c_k=μ_4/(μ_2^2 )-3為峰度係數。

1) 原點距(moment about origin)

對於正整數k,如果e(x^k)存在,稱μ^k=e(x^k)為隨機變數x的k階原點矩。x的數學期望(均值)是x的一階原點矩,即e(x)=μ^1。

2) 中心距(moment about centre)

對於正整數k,如果e(x)存在,且e([x – ex]k)也存在,則稱e([x-ex]k)為隨機變數x的k階中心矩。如x的方差是x的二階中心矩,即d(x)= e([x-ex]2)

例如:

> library(performanceanalytics)

> kurtosis(nile)

[1] -0.3049068

在機率論和統計學中,偏度衡量實數隨機變數概率分布的不對稱性。偏度的值可以為正,可以為負或者甚至是無法定義。在數量上,偏度為負(負偏態)就意味著在概率密度函式左側的尾部比右側的長,絕大多數的值(包括中位數在內)位於平均值的右側。偏度為正(正偏態)就意味著在概率密度函式右側的尾部比左側的長,絕大多數的值(包括中位數在內)位於平均值的左側。偏度為零就表示數值相對均勻地分布在平均值的兩側,但不一定意味著其為對稱分布。

當cs>0時,概率分布偏向均值右則,cs<0時,概率分布偏向均值左則。

例如:

> library(performanceanalytics)

> skewness(nile)

[1] 0.3223697

R語言 資料分析

二 大資料分析 三 資料分析常用工具 資料分析是指用適當的統計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發資料資料的功能,發揮資料的作用。資料分析是為了驗證假設的問題,需要提供必要的資料驗證。分析模型構建完成後,需要利用測試資料驗證模型的正確性。資料分析是為了挖掘更多的問題,並...

《R語言遊戲資料分析與挖掘》新書推薦

歡迎關注天善智慧型hellobi.com,我們是專注於商業智慧型bi,大資料,資料分析領域的垂直社群,學習 問答 求職,一站式搞定!r語言遊戲資料分析與挖掘 新書上市已經有乙個多月,各大 均有銷售。這是一部從大資料技術和遊戲業務雙重維度講解如何利用結果資料指導商業決策的實戰性著作,樂逗遊戲高階資料分...

資料分析與挖掘 R語言 多元線性回歸

乙個簡單的例子!環境 centos6.5 hadoop集群 hive r rhive,具體安裝及除錯方法見部落格內文件。線性回歸主要用來做 模型。1 準備資料集 x y 0.10 42.0 0.11 43.5 0.12 45.0 0.13 45.5 0.14 45.0 0.15 47.5 0.16 ...