中心極限定理:假設我們有乙個分布,它有定義好的均值和方差。用x表示服從這個分布的變數。進行n次實驗(n很大),每次實驗得到的結果是對這個分布的抽樣,將每次實驗結果用
這裡有乙個重要的分布:
,也就是
**:上提供了乙個演示程式可以讓我們更好地理解中心極限定理。
第一行是原始分布,它可以是任意乙個奇怪的分布。第二行是取樣的過程,在最終的結果中不顯示。第三行和第四行分別是當抽樣次數為5和15時,所有樣本的均值的分布。可以看到當n=5時,樣本均值的分布已經可以看出正態分佈的形狀,當n增大到16時,這個樣本均值的分布是乙個方差更小的正態分佈。
關於樣本均值的抽樣分布的幾個重要結論:樣本均值的抽樣分布的標準差又稱為均值標準誤差(standard error of the mean)。1.樣本均值的抽樣分布的均值與總體均值相等。即:
2.樣本均值的抽樣分布的方差與樣本數成反比,並有乙個確定的關係:
標準差:
這裡插播兩個正態分佈的概念:
偏度(skew)
如果是乙個完美的正態分佈,則skew=0;如果偏度為正,則意味著右側尾部較長;如果偏度為負,則意味著左側尾部較長。
峰度(kurtosis)
如果時乙個完美的正態分佈,則峰度為0時;當峰度為負時,正態分佈的頂部較肥,尾部較陡峭;當峰度為正時,正態分佈的頂部較瘦,尾部較平緩。
伯努利分布是最簡單的二項分布。伯努利分布中的事件只會出現兩種結果。我們假設其中一種結果為「成功」,其概率為p,另外一種結果為「失敗」,其概率為1-p。則有以下結果:有這個一樣問題:均值:方差:
標準差:
從農場的200,000個蘋果中取出36個蘋果進行取樣。樣本的平均重量為112g,樣本的標準差為40g。請問:總體200,000個蘋果的平均重量的95%置信區間是多少?
我們得到的只是樣本的資訊,如何根據極少的樣本資訊得到總體資訊呢?思路如下:
1.從總體中抽取36個樣本得到的樣本均值是樣本均值的抽樣分布的乙個抽樣,也就是乙個正態分佈的抽樣;
2.用樣本的標準差作為總體標準差的估計,並計算樣本均值的抽樣分布的標準差:;
3.樣本均值為
4. 3中的概率值可以通過經驗法則或 查表計算。
說明:因為使用樣本的標準差作為總體標準差的估計,並不準確,所以這裡說的是「置信」區間,而不是確定的。
t 分布(t distribution)用於小樣本容量時置信區間的估計
當樣本數很小時,樣本均值的抽樣分布並不服從於正態分佈,不能用正態分佈的經驗法則或**進行概率計算。有專門的t分布計算**。t分布與正態分佈的差別是:t分布有「肥」尾,這是因為低估了抽樣分布的標準差。
今天沒時間啦,暫時先寫這麼多,之後再補充~
參考:可汗學院:統計學
可汗學院統計學筆記(三)
假設檢驗是推論統計中用於檢驗統計假設的一種方法。而 統計假設 是可通過觀察一組隨機變數的模型進行檢驗的科學假說。一旦能估計未知引數,就會希望根據結果對未知的真正引數值做出適當的推論。統計上對引數的假設,就是對乙個或多個引數的論述。而其中欲檢驗其正確性的為零假設 null hypothesis 零假設...
可汗學院的統計學
描述性統計學 描述集中趨勢,均值,中位數,眾數,離群值,在平均工資,平均房價,學生成績等情況中,中位數或者眾數更能反映集中趨勢,離群值可能有 量錯誤或沒寫特殊條件的值沒有參考意義,但是會改變平均值 連續型隨機變數 離散型隨機變數 離散概率密度分布函式,條形圖 連續概率密度分布,因為是連續的,可以去無...
組隊學習可汗學院統計學1
12 總體均值與樣本均值,總體值不好得 13 計算了乙個均值和方差 14 樣本方差用s 2 表示,按照和計算總體方差一樣的計算方法由於均值可能 與正常有偏移,使得方差的計算變小。15 標準差為方差開根號,所以方差的表示是標準差的平方,舉了例子算標準差 16 將方差計算公式進行化簡然後不用先求均值進行...