統計學基本知識 datawhale 任務三

2021-09-11 19:55:35 字數 1575 閱讀 1042

假設檢驗是數理統計中根據一定假設條件由樣本推斷總體的一種方法,依據的原理是小概率事件原理,即小概率事件在一次試驗中是幾乎不可能發生的。

建立假設——原假設與備擇假設

原假設記作h

0h_0

h0​,是指待檢驗的假設,一般為研究者想要收集證據反對的,沒有充分理由否定的假設。

備擇假設記作h

1h_1

h1​,是指與原假設相對的假設,一般為研究者想要收集證據支援的,沒有充分理由肯定的假設。

一般來說是相互對立的,但有時可能存在既拒絕原假設又無法接受的備擇假設的情況。

確定適當的檢驗統計量(t,p,z)並計算。

(1) 在樣本容量<30,且總體方差σ

\sigma

σ未知時,採用t-統計量進行假設檢驗。即指定抽樣分布服從t分布,並查閱分布表進行對比。

(2)在樣本容量》30,且總體方差已知(若樣本容量<30也可以)時,採用z-統計量進行假設檢驗。即抽樣分布服從正態分佈,並查閱z-值表進行對比。

(3)樣本容量》30,也可以通過計算p值,並與顯著性水平α

\alpha

α進行對比進行檢驗。p值指小概率事件發生概率,顯著性水平則指拒絕原假設的概率(α

\alpha

α通常很小,由人為決定)

給定顯著性水平,確定拒絕域,並進行判斷

檢驗統計量若落入抽樣分布的拒絕域,則可以拒絕原假設,接受備擇假設。

檢驗規則有兩種:

(1)臨界值規則。將檢驗統計量的值(t,z)與顯著性水平的臨界值進行對比,得出是否拒絕原假設。

(2)p—值規則。指將檢驗統計量對應的概率p與顯著性水平進行對比,得出是否拒絕原假設。

一般也可以由結果得出置信區間。

第一類錯誤

指原假設事實上為真,但卻拒絕原假設的錯誤,也叫棄真錯誤,σ

\sigma

σ錯誤。

第二類錯誤

指原假設事實上為假,但卻接受原假設的錯誤,也叫取偽錯誤,β

\beta

β錯誤。

人們總希望σ

\sigma

σ,β\beta

β越小越好,但當樣本容量一定時,一類錯誤機率減小,另一類錯誤機率便增大。若要使兩類錯誤概率都減小,只能增加樣本容量。

μ x+

y=μx

y\mu_ = \mu_x + \mu_y

μx+y​=

μx​+

μy​,μx−

y=μx

−μ

y\mu_ = \mu_x - \mu_y

μx−y​=

μx​−

μy​σx+

y2=σ

x2+σ

y2

\sigma_^2 = \sigma_x^2 + \sigma_y^2

σx+y2​

=σx2

​+σy

2​,σx−

y2=σ

x2+σ

y2

\sigma_^2 = \sigma_x^2 + \sigma_y^2

σx−y2​

=σx2

​+σy

2​.注意區別,具體推導日後再補。

統計學基本知識 datawhale 任務一,二

按照網易雲課堂可汗學院統計學進度,從第1課 34課 條形圖線型圖 餅圖箱線圖 莖葉圖各種作用就不一一闡述了,比較基礎。總體和樣本 總體是統計學解決任何乙個問題都有待認識客觀事物的全體,稱作統計總體。總體單位是組成總體的各個個體。樣本則是為了認識總體而從總體中選取的實際觀測的個體和。二項分布 設在n重...

統計學 論統計學知識點

二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...

統計學 統計學基礎

五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...