數理統計。以樣本推斷總體,進而用總體研究問題。
分兩部分學習,第一部分是基礎統計、引數估計、假設檢驗以及bootstrap方法。
1. 基礎統計
假設有如下資料:
要做頻數表、直方圖、折線圖、餅狀圖等等,首先要做的是如何把這些資料在matlab中表示。
先把資料寫入乙個純文字資料檔案 data.txt 中, 格式如上表,有 20 行、10 列,資料列之間用空格鍵或 tab 鍵分割,該資料檔案 data.txt 存放在 matlab\work 子目錄下,在 matlab 中用 load 命令讀入資料,具體作法是:
load data.txt
這樣在記憶體中建立了乙個變數 data,它是乙個包含有 10 20× 個資料的矩陣。 為了得到我們需要的 100 個身高和體重各為一列的矩陣,應做如下的改變:
high=data(:,1:2:9);high=high(:)
weight=data(:,2:2:10);weight=weight(:)
接著做頻數以及直方圖:
求頻數用 hist 命令實現,其用法是:
[n,x] = hist(y,m)
得到陣列(行、列均可)y 的頻數表。它將區間[min(y),max(y)]等分為 m 份(預設時 m 設定為 10),n 返回 m 個小區間的頻數,x 返回 m 個小區間的中點。
命令 hist(y,m) 畫出陣列 y 的直方圖。
matlab 中 moment(x,order)返回 x 的 order 階中心矩,order 為中心矩的階數。 skewness(x)返回 x 的偏度,kurtosis(x)返回峰度。
matlab 統計工具箱中有 27 種概率分布,這裡只對上面所述 4 種分布列出命令的字 符:
norm 正態分佈;
chi2 卡方分布;
t t分布
f f 分布
工具箱對每一種分布都提供 5 類函式,其命令的字元是:
pdf 概率密度;
cdf 分布函式;
inv 分布函式的反函式;
stat 均值與方差;
rnd 隨機數生成:符合該分布的隨機數
當需要一種分布的某一類函式時,將以上所列的分布命令字元與函式命令字元接起 來,並輸入自變數(可以是標量、陣列或矩陣)和引數就行了,如:
p=normpdf(x,mu,sigma) 均值 mu、標準差 sigma 的正態分佈在 x 的密度函式 (mu=0,sigma=1 時可預設)。
p=tcdf(x,n) t分布(自由度 n)在 x 的分布函式。
x=chi2inv(p,n) 卡方分布(自由度 n)使分布函式 f(x)=p 的 x(即 p 分位數)。
[m,v]=fstat(n1,n2) f 分布(自由度 n1,n2)的均值 m 和方差 v。
幾個分布的密度函式圖形就可以用這些命令作出,如:
x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);
plot(x,y,x,z),gtext('n(0,1)'),gtext('n(0,2^2)')
2. 引數估計
常見的是點估計和區間估計。
點估計有矩估計(基於大數定律)和最大似然估計(基於貝葉斯公式)。
區間估計常見的是利用α分位點借助常見分布、利用bootstrap區間估計等。
這些理論是數理統計一課的講授重點。
☆引數估計的 matlab 實現
對於正態總體:[mu,sigma,muci,sigmaci]=normfit(x,alpha)
其中 x 為樣本(陣列或矩陣),alpha 為顯著性水平 α (alpha 預設時設定為 0.05),返 回總體均值 μ 和標準差 σ 的點估計 mu 和 sigma,及總體均值 μ 和標準差 σ 的區間估計 muci 和 sigmaci。當 x 為矩陣時,x 的每一列作為乙個樣本。
matlab 統計工具箱中還提供了一些具有特定分布總體的區間估計的命令,如 expfit,poissfit,gamfit。
3. 假設檢驗
對於假設的檢驗,通常檢驗分為下面幾種:
檢驗引數(雙邊、左邊、右邊)。
檢驗分布。(分布擬合檢驗)
檢驗兩個變數是否是同一分布。(秩和檢驗)
引數檢驗:
對於正態總體:
在 matlab 中z 檢驗法由函式 ztest 來實現,命令為
[h,p,ci]=ztest(x,mu,sigma,alpha,tail)
在 matlab 中t檢驗法由函式 ttest 來實現,命令為
[h,p,ci]=ttest(x,mu,alpha,tail)
還可以用t檢驗法檢驗具有相同方差的 2 個正態總體均值差的假設。在 matlab 中 由函式 ttest2 實現,命令為:
[h,p,ci]=ttest2(x,y,alpha,tail)
與上面的 ttest 相比,不同處只在於輸入的是兩個樣本 x,y(長度不一定相同), 而不是乙個樣本和它的總體均值;tail 的用法與 ttest 相似
分布擬合檢驗
應用數理統計 統計
1.基本概念 總體 研究物件的全體 個體 組成總體的個體 樣本 從總體中抽取n個個體 如 一批次2萬個燈泡 總體 每個燈泡 個體 樣本 隨機抽取100個,樣本容量100 觀測值 樣本的實驗結果 樣本空間 所有樣本值組成的集合 2.統計量 均值,方差,k原點矩,k階中心距 樣本均值 注意 樣本均值和隨...
數理統計常用統計函式
隨機變數的統計行為取決於其概率分布,而分布函式常用連續和離散型分布。統計工具箱提供20種分布。每種分布有五類函式。一 概率密度函式 pdf函式是一種通用的計算概率密度函式值,格式如下 y pdf name k,a1,a2,a3 name指定是那種分布函式 k為變數值 a1,a2,a3是分布函式的引數...
概率論與數理統計 S2數理統計概念
numpy 是開源的數學計算擴充套件庫,裡面有很多數值計算api,用來儲存和處理矩陣 import numpy as np a 1,2,4,5,3,12,12,23,43,52,11,22,22,22 a mean np.mean a to acqirue mean value a mid np.m...