1. 樣本空間
隨機試驗 $e$ 的所有基本結果組成的集合為 $e$ 的
樣本空間。樣本空間中的資料元素具有唯一性,不能重複。
2. 總體
所研究物件的某項數量指標取值的全體稱為總體,用隨機變數 $x$ 表示。比如我們要研究亞洲人的身高分布,那所有亞洲人的身高資料就構成
總體。總體中資料個數大於等於樣本空間中的資料個數,比如 100 個人身高全為 2m,那麼總體就是 100 個 2m,而樣本空間就只有乙個 2m。
3. 個體
總體中的乙個元素稱為個體。比如某乙個人的身高。
4. 簡單隨機樣本
由於總體太過龐大,我們總不能真的統計全部亞洲人的身高,於是我們採用抽樣的手段,在亞洲人中抽出 10000 人,用這 10000 人的身高
分布來代
表總體的身高分布,這 10000 次抽樣相互獨立。我們現在只研究一次抽樣:假如總體是 $\left \$,那麼可
以認為我們
抽取出的這一
個人有 $\frac$ 的概率身高為 0.1,有 $\frac$
的概率身高為 0.2,有 $\frac$
的概率身高為 0.3。由於每次抽樣之前,不會知道抽樣的結果,所以用乙個
隨機變數來表
示,將這 10000 次的抽樣結果記為隨機變數 $x_,x_,...x_$,稱為
簡單隨機樣本,簡稱樣本,它們
的具體觀察值
$x_,x_,...x_$ 稱為樣本值。
樣本與總體同分布,每乙個個體都是一維隨機變數,所以樣本是多維,總體是一維。這就和投硬幣一樣.投一次是一維隨機變數.投多次是多維隨機變數。
注意:總體是概率分布角度,是理論上的,樣本是統計角度,是實際觀察到的,兩者是不同的。
5. 統計量
樣本 $x_,x_,...x_$ 不含引數的函式 $t = t(x_,x_,...x_)$ 稱為統計量,也稱樣本統計量。
常見的樣本統計量有:樣本均值、樣本方差等。
我們需要認識到樣本統計量本身也是乙個隨機變數,這是因為每次抽樣的結果具有不確定性,即樣本具有不確定性,那麼樣本的函式當然也具有不確定性。
6. 抽樣分布
樣本統計量這個隨機變數的分布即為抽樣分布。總體資料那麼大不可能乙個乙個的進行分析,只能拿一些樣本分析,這樣就需要抽樣,但是我們要研
究的並不是單純
的資料,而是資料的一些特徵,如均值、方差等,所以對資料進行加工換算,得到樣本統計量。以樣本均值為例:
$$\overline = \frac\sum_^x_$$
每經過一輪抽樣(每輪 $n$ 次),會算出不同的樣本均值,隨著樣本量 $n$ 的增大,不論總體是否服從正態分佈,樣本均值的抽樣分布都將趨於正態分佈。
那這個統計量如何同總體的特徵聯絡起來呢?
兩者之間通過大數定律進行聯絡,當樣本容量 $n$ 足夠大時,有
$$\frac\sum_^x_\oversete(x)$$
所以,樣本足夠大時,可以用樣本均值來估計總體均值。
那為什麼研究統計量的分布呢?通過研究這個分布,目的是評估樣本估計的合理性、有效性及誤差等,
如可以證明樣本均值是總體均值的無偏估計:
$$e(\overline) = e(\frac\sum_^x_) = \frac\sum_^e(x_) = \frac \cdot n \cdot e(x)=e(x)$$
t統計量和z統計量
z統計和t統計可以用來檢驗兩個平均數之間差異顯著的程度,z適合大樣本的情況 樣本數大於30 t適合小樣本的情況。z檢驗的步驟 h0 1 第二步 計算統計量z值,對於不同型別的問題選用不同的統計量計算方法,1 如果檢驗乙個樣本平均數 的差異是否顯著。其z值計算公式為 其中 2 如果檢驗來自兩個的兩組樣...
屬性和統計量
lmz 屬性是 的輸入量 統計量是 的輸出量 屬性本質上屬於程序的變數。變數一般寫在sv tv中。但是這樣寫的缺點在於不方便修改,每次修改都得深入程序模型。屬性的值一般都在init狀態下通過核心函式讀取,然後作為程序的變數使用。這樣我們就可以在 時不用深入底層就可以改變其值 屬性提公升 屬性中分 舉...
常見統計量
最小值.數值變數的最小值。最大值.數值變數的最大值。總數.所有具有缺失值的測量值的總和或合計。範圍.數值變數的最大值與最小值的差值就是用最大值減最小值後得出的值。平均值.集中趨勢的測量。算術平均值,等於總和除以觀測值數。均值標準誤.取自相同分布中隨樣本不同而變化的均值的值個數的度量值。用於粗略將觀測...