數模 day06 數理統計I

2022-01-12 12:02:01 字數 2984 閱讀 2349

數理統計。

以樣本推斷總體,進而用總體研究問題。

分兩部分學習,第一部分是基礎統計、引數估計、假設檢驗以及bootstrap方法。

1. 基礎統計

假設有如下資料:

要做頻數表、直方圖、折線圖、餅狀圖等等,首先要做的是如何把這些資料在matlab中表示。

先把資料寫入乙個純文字資料檔案 data.txt 中, 格式如上表,有 20 行、10 列,資料列之間用空格鍵或 tab 鍵分割,該資料檔案 data.txt 存放在 matlab\work 子目錄下,在 matlab 中用 load 命令讀入資料,具體作法是:

load data.txt

這樣在記憶體中建立了乙個變數 data,它是乙個包含有 10 20× 個資料的矩陣。 為了得到我們需要的 100 個身高和體重各為一列的矩陣,應做如下的改變:

high=data(:,1:2:9);high=high(:)

weight=data(:,2:2:10);weight=weight(:)

接著做頻數以及直方圖:

求頻數用 hist 命令實現,其用法是:

[n,x] = hist(y,m)

得到陣列(行、列均可)y 的頻數表。它將區間[min(y),max(y)]等分為 m 份(預設時 m 設定為 10),n 返回 m 個小區間的頻數,x 返回 m 個小區間的中點。 

命令 hist(y,m) 畫出陣列 y 的直方圖。

matlab 中 moment(x,order)返回 x 的 order 階中心矩,order 為中心矩的階數。 skewness(x)返回 x 的偏度,kurtosis(x)返回峰度。

matlab 統計工具箱中有 27 種概率分布,這裡只對上面所述 4 種分布列出命令的字 符:

norm  正態分佈;

chi2   卡方分布;

t      t分布           

f    f 分布

工具箱對每一種分布都提供 5 類函式,其命令的字元是:

pdf 概率密度; 

cdf 分布函式; 

inv 分布函式的反函式;

stat 均值與方差; 

rnd 隨機數生成:符合該分布的隨機數

當需要一種分布的某一類函式時,將以上所列的分布命令字元與函式命令字元接起 來,並輸入自變數(可以是標量、陣列或矩陣)和引數就行了,如:

p=normpdf(x,mu,sigma)  均值 mu、標準差 sigma 的正態分佈在 x 的密度函式 (mu=0,sigma=1 時可預設)。

p=tcdf(x,n)  t分布(自由度 n)在 x 的分布函式。

x=chi2inv(p,n)  卡方分布(自由度 n)使分布函式 f(x)=p 的 x(即 p 分位數)。

[m,v]=fstat(n1,n2)  f 分布(自由度 n1,n2)的均值 m 和方差 v。

幾個分布的密度函式圖形就可以用這些命令作出,如:

x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);

plot(x,y,x,z),gtext('n(0,1)'),gtext('n(0,2^2)')

2. 引數估計

常見的是點估計和區間估計。

點估計有矩估計(基於大數定律)和最大似然估計(基於貝葉斯公式)。

區間估計常見的是利用α分位點借助常見分布、利用bootstrap區間估計等。

這些理論是數理統計一課的講授重點。

☆引數估計的 matlab 實現

對於正態總體:[mu,sigma,muci,sigmaci]=normfit(x,alpha)

其中 x 為樣本(陣列或矩陣),alpha 為顯著性水平 α (alpha 預設時設定為 0.05),返 回總體均值 μ 和標準差 σ 的點估計 mu 和 sigma,及總體均值 μ 和標準差 σ 的區間估計 muci 和 sigmaci。當 x 為矩陣時,x 的每一列作為乙個樣本。

matlab 統計工具箱中還提供了一些具有特定分布總體的區間估計的命令,如 expfit,poissfit,gamfit。

3. 假設檢驗

對於假設的檢驗,通常檢驗分為下面幾種:

檢驗引數(雙邊、左邊、右邊)。

檢驗分布。(分布擬合檢驗)

檢驗兩個變數是否是同一分布。(秩和檢驗)

引數檢驗:

對於正態總體:

在 matlab 中z 檢驗法由函式 ztest 來實現,命令為

[h,p,ci]=ztest(x,mu,sigma,alpha,tail)

在 matlab 中t檢驗法由函式 ttest 來實現,命令為

[h,p,ci]=ttest(x,mu,alpha,tail)

還可以用t檢驗法檢驗具有相同方差的 2 個正態總體均值差的假設。在 matlab 中 由函式 ttest2 實現,命令為:

[h,p,ci]=ttest2(x,y,alpha,tail)

與上面的 ttest 相比,不同處只在於輸入的是兩個樣本 x,y(長度不一定相同), 而不是乙個樣本和它的總體均值;tail 的用法與 ttest 相似

分布擬合檢驗

應用數理統計 統計

1.基本概念 總體 研究物件的全體 個體 組成總體的個體 樣本 從總體中抽取n個個體 如 一批次2萬個燈泡 總體 每個燈泡 個體 樣本 隨機抽取100個,樣本容量100 觀測值 樣本的實驗結果 樣本空間 所有樣本值組成的集合 2.統計量 均值,方差,k原點矩,k階中心距 樣本均值 注意 樣本均值和隨...

數理統計常用統計函式

隨機變數的統計行為取決於其概率分布,而分布函式常用連續和離散型分布。統計工具箱提供20種分布。每種分布有五類函式。一 概率密度函式 pdf函式是一種通用的計算概率密度函式值,格式如下 y pdf name k,a1,a2,a3 name指定是那種分布函式 k為變數值 a1,a2,a3是分布函式的引數...

概率論與數理統計 S2數理統計概念

numpy 是開源的數學計算擴充套件庫,裡面有很多數值計算api,用來儲存和處理矩陣 import numpy as np a 1,2,4,5,3,12,12,23,43,52,11,22,22,22 a mean np.mean a to acqirue mean value a mid np.m...