今天看到一篇不錯的博文,有感,記錄下來,相對來說講到了本質,也很容易理解。
首先,老生常談,還是那三大分布
t,卡方,f,(正態不是三大)
t是厚尾的,對小樣本量做檢驗,對於樣本難獲得的領域很有用,比如醫藥,生物,前面寫過乙個關於t檢驗的記錄。
卡方檢驗用來做獨立性檢驗和符合某個標準分布(正態檢驗)
n個相互獨立的隨機變數服從正態分佈,他們的平方和構成乙個新的隨機變數,服從卡方分布,n為自由度。
檢查實際結果與期望結果之間何時存在顯著差異。
1、檢驗擬合優度:也就是說可以檢驗一組給定資料與指定分布的吻合程度。如:用它檢驗**機收益的觀察頻數與我們所期望的吻合程度。
2、檢驗兩個變數的獨立性:通過這個方法檢查變數之間是否存在某種關係。
f分布用來做方差分析,具體見前面的博文
但是重點是要說這篇博文的精妙之處。
有三個不同學校的學生英語考試成績不同,原因是什麼?為什麼不用t檢驗
如果使用t檢驗,需要3次,如果研究10個學校,需要45個,組合次數多,降低可靠程度,如果我們做兩次檢驗,每次都為0.05的顯著性水平,那麼不犯ⅰ型錯誤的概率就變為0.95×0.95=0.90。此時犯ⅰ型錯誤的概率則為1-0.90=0.10,即至少犯一次ⅰ型錯誤的概率翻了一倍。若做10次檢驗的話,至少犯一次ⅰ型錯誤的概率將上公升到0.40(1-0.952),而10次檢驗結論中都正確的概率只有60%。所以說採用z檢驗或t檢驗隨著均數個數的增加,其組合次數增多,從而降低了統計推論可靠性的概率,增大了犯錯誤的概率。
完全隨機設計是採用完全隨機化的分組方法,將全部實驗物件分配到g個處理組(水平組),各組分別接受不同的處理,試驗結束後比較各組均數之間的差別有無統計學意義。
【例子】
某醫生為研究一種四類降糖新藥的療效,以統一的納入標準和排除標準選擇了60名2型糖尿病患者,按完全隨機設計方案將患者分為三組進行雙盲臨床試驗。其中,降糖新藥高劑量組21人、低劑量組19人、對照組20人。對照組服用公認的降糖藥物,**4週後測得其餐後2小時血糖的下降值(mmol/l),結果如表9-1所示。問**4週後,餐後2小時血糖下降值的三組總體平均水平是否不同?
方差分析的基本思想:總變異分解為多個部分,每個部分由某因素的作用來解釋,通過將某因素所致的變異與隨機誤差比較,從而推斷該因素對測定結果有無影響。變異程度除與離均差平方和的大小有關外,還與自由度有關,將各部分離均差平方和除以自由度,比值稱為均方差ms。
如果各組樣本來自相同總體,無處理因素的作用,則組間變異同組內變異一樣,只反應隨機誤差作用的大小。
組間均方與組內均方的比值稱為f統計量:
f值接近於1,就沒有理由拒絕h0(來自相同總體),反之,f值越大,拒絕h0的理由越充分。當h0成立時,f統計量服從f分布,自由度v1和v2,fv1,v2
v1=組間自由度 = g-1 = 3-1 v2=組內自由度=n-g= 60-3 = 57,查f分布表得到p<0.01,按α=0.05水準,拒絕h0,接受h1有統計學意義,可認為2型糖尿病患者**4周,其餐後2小時血糖的總體平均水平不全相同。
方差分析的結果若拒絕h0,接受h1,不能說明各組總體均數兩兩間都有差別。如果要分析哪些兩組間有差別,要進行多個均數間的多重比較(卡方檢驗)。當g =2時,方差分析的結果與兩樣本均數比較的t 檢驗等價 t=sqrt(f)。
上例中的自由度計算非常具有代表意義,這是最簡單和基礎的知識,但是很重要,因此再記錄一遍,加深印象。
又談「裝系統」
開始學裝系統是去年的11月份,我們在師兄的指導下,對自己的本裝了有重灌,來來回回整整了四五遍。以為已經很差不多了,一下子對計算機裝系統不在有神秘感。最近vb作品展完後,自己的本搞的亂七八糟,我又重灌了一次系統,沒想到,又意外收穫了一把。在這裡我就整理一下我知道的裝系統的方法吧。四個方法 一 光碟安裝...
又談「裝系統」
開始學裝系統是去年的11月份,我們在師兄的指導下,對自己的本裝了有重灌,來來回回整整了四五遍。以為已經很差不多了,一下子對計算機裝系統不在有神秘感。最近vb作品展完後,自己的本搞的亂七八糟,我又重灌了一次系統,沒想到,又意外收穫了一把。在這裡我就整理一下我知道的裝系統的方法吧。四個方法 一 光碟安裝...
又談領域模型
昨天,突然和阿敏談起領域模型,發現自己的理解還是有些歧異於是看了罈子裡robbin關於領域模型的一些 又吧.老馬的企業應用架構模式拿出來翻了翻好象又增加了些理解,領域模型大體分為三種 也可分為四種 分別為失血,貧血,充血 脹血 robbin語 下面我總結了幾條關於領域模型幾個形態的一些不成熟的總結 ...