標籤: 機器學習與資料探勘
(此篇的r**對應本系列的《12 r語言手冊(第五站 單變數分析)》)
在這兩個假設之下,又有四種情況:
型別i錯誤的概率記為α
\alpha
α,而型別iⅱ錯誤的概率記為β
\beta
β。對於乙個固定樣本容量, α
\alpha
α 減小與β
\beta
β增大相關,反之亦然。在統計分析中, α
\alpha
α 通常固定在某個較小值,例如0.05,稱之為顯著性水平。
均值假設檢驗的一般處理是將假設限定為以下3種形式:
(其中μ
0\mu_0
μ0表示μ
\muμ的乙個假設值。)
當樣本容量很大或者總體為正態分佈時,檢驗統計量tda
ta=x
ˉ−μ0
snt=\frac-\mu 0}}}
tdata=
ns
xˉ−μ
0遵循自由度為n−1
n-1n−
1的t分布。tda
tat_td
ata
的值可理解為在假設的均值 \mu 之上或之下的標準誤差數目,樣本均值x
ˉ\bar
xˉ,其中標準誤差等於s
n\frac}
ns
(粗略地講,標準誤差表示統計量分布的分散程度度量)。當tda
tat_td
ata
值為極值時,這表明一種零假設(伴隨假設值$ \mu_0 )和觀
測資料之
間的衝突
。由於數
據表示經
驗證據零
假設僅僅
表示一種
斷言,因
此解決這
樣的衝突
有利於數
據,因此
,當)和觀測資料之間的衝突。由於資料表示經驗證據零假設僅僅表示一種斷言,因此解決這樣的衝突有利於資料,因此,當
)和觀測資料
之間的衝
突。由於
資料表示
經驗證據
零假設僅
僅表示一
種斷言,
因此解決
這樣的衝
突有利於
資料,因
此,當t_為極值
時,假設
為極值時,假設
為極值時,假
設h_0是拒絕
的。什麼
樣的極值
才算是極
值?需要
使用p−
值進行度
量。p−
值是指:
如果我們
假定零假
設為真時
,觀測樣
本統計量
(比如是拒絕的。什麼樣的極值才算是極值?需要使用 p-值 進行度量。 p-值 是指:如果我們假定零假設為真時,觀測樣本統計量(比如
是拒絕的。什
麼樣的極
值才算是
極值?需
要使用p
−值進行
度量。p
−值是指
:如果我
們假定零
假設為真
時,觀測
樣本統計
量(比如
\bar和
和和t_$。)至少與真實測的統計量一樣極端的概率。由於 p-值(「概率值」)表示乙個概率,因此其值必須總是於 0 和 1 區間。下表說明了針對假設檢驗形式如何計算p-值。
假設檢驗形式的名稱表明p-值將會在t分布的哪尾或雙尾中發現。
乙個較小p-值將表明資料與零假設之間的衝突。因此,如果p-值較小,我們將拒絕h_0。
多小才為較小?因為研究者設定顯著性水平α
\alpha
α為某個較小值(比如0.05),因此,如果 p-值 小於α
\alpha
α,我們則認為p-值較小。這引導我們得出拒絕規則:
「如果p-值小於α
\alpha
α,拒絕h
0h_0
h0。」
關於總體比例\pi的假設檢驗也可以被執行。檢驗統計量為:
z da
ta=p
−π0(
π0(1
−π0)
/n)z_=\frac}
zdata
=(π0
(1−
π0)
/n)
p−π0
(其中,π
0\pi_0%為%\pi
π0的假設值,p
pp為樣本比例。)
關於檢驗假設的歷史,知乎上有個特別好的答案:
假設檢驗 假設檢驗學習筆記
在實際工作和研究中,往往只能獲得資料的一部分,通常指這個資料為樣本,而通過樣本對整體的估計被稱為假設檢驗。樣本是從整體中選取的較小集合,中心極限定律 樣本的均值約等於總體的均值 不管整體什麼分布,任意乙個總體的樣本均值都會圍繞在總體的均值周圍,且呈正太分布。關鍵資訊 樣本的均值等於總體的均值 樣本的...
假設檢驗 到底該怎麼理解假設檢驗?
學過統計學或概率論的同學,對 假設檢驗 這個詞一定不陌生。因為期末考試的卷子裡必定會考一道這種題,那個時候,我其實對假設檢驗的流程並不是很理解,不過幸好流程簡單,照葫蘆畫瓢,套一套格式就能答對。那假設檢驗到底是個什麼東西?先上一道假設檢驗的例題,回憶一下假設檢驗的流程,找一下當初的感覺。某工具機廠加...
(六)假設檢驗
假設檢驗的步驟 步驟1 提出原假設與備擇假設 步驟2 指定檢驗中的顯著性水平 步驟3 蒐集樣本資料並計算檢驗統計量的值 p 值方法 步驟4 利用檢驗統計量的值計算p 值 步驟5 如果p 值 a,則拒絕h0 臨界值方法 步驟6 顯著性水平確定臨界值以及拒絕規則 步驟7 利用檢驗統計量的值以及拒絕規則確...