又談F分布

今天看到一篇不錯的博文，有感，記錄下來，相對來說講到了本質，也很容易理解。

首先，老生常談，還是那三大分布

t，卡方，f，（正態不是三大）

t是厚尾的，對小樣本量做檢驗，對於樣本難獲得的領域很有用，比如醫藥，生物，前面寫過乙個關於t檢驗的記錄。

卡方檢驗用來做獨立性檢驗和符合某個標準分布（正態檢驗）

n個相互獨立的隨機變數服從正態分佈，他們的平方和構成乙個新的隨機變數，服從卡方分布，n為自由度。

檢查實際結果與期望結果之間何時存在顯著差異。

1、檢驗擬合優度：也就是說可以檢驗一組給定資料與指定分布的吻合程度。如：用它檢驗**機收益的觀察頻數與我們所期望的吻合程度。

2、檢驗兩個變數的獨立性：通過這個方法檢查變數之間是否存在某種關係。

f分布用來做方差分析，具體見前面的博文

但是重點是要說這篇博文的精妙之處。

有三個不同學校的學生英語考試成績不同，原因是什麼？為什麼不用t檢驗

如果使用t檢驗，需要3次，如果研究10個學校，需要45個，組合次數多，降低可靠程度，如果我們做兩次檢驗，每次都為0.05的顯著性水平，那麼不犯ⅰ型錯誤的概率就變為0.95×0.95＝0.90。此時犯ⅰ型錯誤的概率則為1-0.90＝0.10，即至少犯一次ⅰ型錯誤的概率翻了一倍。若做10次檢驗的話，至少犯一次ⅰ型錯誤的概率將上公升到0.40（1-0.952），而10次檢驗結論中都正確的概率只有60%。所以說採用z檢驗或t檢驗隨著均數個數的增加，其組合次數增多，從而降低了統計推論可靠性的概率，增大了犯錯誤的概率。

完全隨機設計是採用完全隨機化的分組方法，將全部實驗物件分配到g個處理組（水平組），各組分別接受不同的處理，試驗結束後比較各組均數之間的差別有無統計學意義。

【例子】

某醫生為研究一種四類降糖新藥的療效，以統一的納入標準和排除標準選擇了60名2型糖尿病患者，按完全隨機設計方案將患者分為三組進行雙盲臨床試驗。其中，降糖新藥高劑量組21人、低劑量組19人、對照組20人。對照組服用公認的降糖藥物，**4週後測得其餐後2小時血糖的下降值(mmol/l)，結果如表9-1所示。問**4週後，餐後2小時血糖下降值的三組總體平均水平是否不同？

方差分析的基本思想：總變異分解為多個部分，每個部分由某因素的作用來解釋，通過將某因素所致的變異與隨機誤差比較，從而推斷該因素對測定結果有無影響。變異程度除與離均差平方和的大小有關外，還與自由度有關，將各部分離均差平方和除以自由度，比值稱為均方差ms。

如果各組樣本來自相同總體，無處理因素的作用，則組間變異同組內變異一樣，只反應隨機誤差作用的大小。

組間均方與組內均方的比值稱為f統計量：

f值接近於1，就沒有理由拒絕h0（來自相同總體），反之，f值越大，拒絕h0的理由越充分。當h0成立時，f統計量服從f分布，自由度v1和v2，fv1,v2

v1=組間自由度 = g-1 = 3-1 v2=組內自由度=n-g= 60-3 = 57，查f分布表得到p<0.01，按α=0.05水準，拒絕h0，接受h1有統計學意義，可認為2型糖尿病患者**4周，其餐後2小時血糖的總體平均水平不全相同。

方差分析的結果若拒絕h0，接受h1，不能說明各組總體均數兩兩間都有差別。如果要分析哪些兩組間有差別，要進行多個均數間的多重比較（卡方檢驗）。當g =2時，方差分析的結果與兩樣本均數比較的t 檢驗等價 t=sqrt(f)。

上例中的自由度計算非常具有代表意義，這是最簡單和基礎的知識，但是很重要，因此再記錄一遍，加深印象。

又談F分布

又談「裝系統」

又談「裝系統」

又談領域模型

又談F分布

又談「裝系統」

又談「裝系統」

又談領域模型

相關推薦