描述性統計

2022-09-10 05:57:08 字數 2938 閱讀 8943

選擇你想要統計的指標,點選確定

得到描述性統計**。

圖形-舊對話方塊-散點圖/點圖-矩陣散點圖-定義-將變數全部移到右邊-確定

生成如下散點圖:

若從散點圖中能夠看到兩個變數之間呈大概的線性關係,則計算其相關係數;否則判斷其線性相關程度低。

clear;clc

load 'physical fitness test.mat' %檔名如果有空格隔開,那麼需要加引號

% %% 統計描述

min = min(test); % 每一列的最小值

max = max(test); % 每一列的最大值

mean = mean(test); % 每一列的均值

median = median(test); %每一列的中位數

skewness = skewness(test); %每一列的偏度

kurtosis = kurtosis(test); %每一列的峰度

std = std(test); % 每一列的標準差

result = [min;max;mean;median;skewness;kurtosis;std] %將這些統計量放到乙個矩陣中表示

%% 計算各列之間的相關係數

% 在計算皮爾遜相關係數之前,一定要做出散點圖來看兩組變數之間是否有線性關係

% 這裡使用spss比較方便: 圖形 - 舊對話方塊 - 散點圖/點圖 - 矩陣散點圖

r = corrcoef(test) % correlation coefficient

將得到的r複製到excel**中,加上指標名

一、假設檢驗

%% 假設檢驗部分

x = -4:0.1:4;

y = tpdf(x,28); %求t分布的概率密度值 28是自由度

figure(1)

plot(x,y,'-')

grid on % 在畫出的圖上加上網格線

hold on % 保留原來的圖,以便繼續在上面操作

p值判斷法:

乙個:置信水平為90%水平上越顯著地異於0

兩個:置信水平為95%水平上越顯著地異於0

三個:置信水平為99%水平上越顯著地異於0

用spss標記置信水平的個數

分析-相關-雙變數-所有指標移到右邊

(雙尾為雙側檢驗,單尾為單側檢驗)

二、假設檢驗條件

資料服從正態分佈。

一、正態分佈jb檢驗(大樣本 n>30)

matlab中進行jb檢驗的語法:[h,p] = jbtest(x,alpha)

當輸出h等於1時,表示拒絕原假設;h等於0則代表不能拒絕原假設。

alpha就是顯著性水平,一般取0.05,此時置信水平為1‐0.05=0.95

x就是我們要檢驗的隨機變數,注意這裡的x只能是向量。

%% 正態分佈檢驗

% 檢驗第一列資料是否為正態分佈

[h,p] = jbtest(test(:,1),0.05)

% 用迴圈檢驗所有列的資料

n_c = size(test,2); % number of column 資料的列數

h = zeros(1,6);

p = zeros(1,6);

for i = 1:n_c

[h,p] = jbtest(test(:,i),0.05);//test為資料矩陣,test(:,i)是矩陣的第一列

h(i)=h;

p(i)=p;

enddisp(h)

disp(p)

二、shapiro-wilk夏皮洛‐威爾克檢驗(小樣本3≤n≤50)

三、q-q圖

在統計學中,q‐q圖(q代表分位數quantile)是一種通過比較兩個概率分布的分位數對這兩個概率分布進行比較的概率圖方法。

首先選定分位數的對應概率區間集合,在此概率區間上,點(x,y)對應於第乙個分布的乙個分位數x和第二個分布在和x相同概率區間上相同的分位數。這裡,我們選擇正態分佈和要檢驗的隨機變數,並對其做出qq圖,可想而知,如果要檢驗的隨機變數是正態分佈,那麼qq圖就是一條直線。

要利用q‐q圖鑑別樣本資料是否近似於正態分佈,只需看q‐q圖上的點是否近似地在一條直線附近。(要求資料量非常大)

qqplot(test(:,1))

描述性統計

上一節,我們談了資料視覺化,並且用python 對影象進行了簡單的實現。但是,這僅僅使得我們對資料分布的形狀和特徵有了乙個大概的了解。想要全面了解資料分布的特徵,還需要找到反應資料分布特徵的各個代表值。資料分布的特徵可以從三個方面進行測度和描述 1 分布的集中趨勢,反應各資料向其中心值靠攏或聚集的程...

描述性統計

眾數 一組資料 現最多的變數值 中位數 一組資料排序後處於中間位置上的變數值 分位數 四分位數 十分位數 百分位數 平均數 一組資料相加後除以資料個數的結果值 各變數值倒數的平均倒數,稱為調和平均數 n個變數值乘積的n次方根,稱為幾何平均數 眾數是一組資料分布的峰值,是一種位置代表值,不受值極端的影...

描述性統計

資料分布特徵可以從以下三個方面來描述 資料的水平,反應資料的集中程度 資料的差異,反應資料的離散程度 資料的分布形狀,反應數分布的偏態和峰態。描述資料水平的統計量 平均數 中位數 分位數 眾數。1.1.1 概念 1.1.2 優缺點1.2.1 眾數 1.2.2 中位數 1.2.3 分位數 分位數與中位...