在分類資料擬合優度的
該統計量
服從 的
分布。其中,
為某分類實際頻數,
為零假設中的期望頻數,
為分類類別的數量。
對於分類資料的擬合優度
檢驗,很多統計教科書介紹完上面這些就結束了。但相信初學者,尤其是非統計專業的初學者會和我一樣,都存在乙個疑問,式1中的檢驗統計量
為什麼會服從
分布呢?
這個疑問非常自然,因為
分布的定義是:
「對於
,其中
。對 標準化並對這
個標準分平方求和得q,那麼q服從自由度為
的 分布,記為
:「對比式1和式2,好像他們的分子都是真實值減去期望值的平方,但分母乙個是期望值,乙個是方差,為什麼
和 都會服從
分布?更為關鍵的是,我們知道擬合優度的
檢驗是乙個
非引數檢驗! 但在
分布的定義中,明顯對自變數
做了正態分佈的假設,這似乎與非參檢驗的特徵相違背。
讓我們先從類別為2的簡單分類資料入手。
設 為型別
在總體中的
理論概率,那麼,
即為型別
在總體中的理論概率,例如,當
時,我們的零假設為「在總體中,型別1和型別2等比例分布」。
設當前有一容量為
的樣本,其中,型別1的個體出現頻數為
,型別2的個體出現頻數為
根據 檢驗的公式(式1),我們得到檢驗統計量:
這裡再明確一次,我們的疑問是,為什麼
會服從
分布。讓我們對式3進行變形:
式4的結果是不是有點熟悉?
根據棣莫夫-拉普拉斯定理(de moivre-laplace),當
時,式4中的
會趨向於標準正態分佈(實際中一般要求
即可)。
這就和式2中卡方分布的定義聯絡上了,顯然,
。 求大神證明皮爾遜統計量為什麼服從卡方分布?www.zhihu.com
蘇克:卡方檢驗、t檢驗zhuanlan.zhihu.com
統計學 卡方檢驗和卡方分布
感冒人數 未感冒人數 合計感冒率 喝牛奶組 4396 13930.94 不喝牛奶組 2884 11225.00 合計71 180251 28.29 感冒人數 未感冒人數 合計喝牛奶組 139 0.2829 139 1 0.2829 139不喝牛奶組 112 0.2829 112 1 0.2829 1...
連續分布 正態分佈 卡方分布 t分布 F分布
某一地區的人群生長環境相似,我們隨機選20個男性,量出他們的身高,近似地服從正態分佈。正態分佈,即高斯分布,是自然界最常見的資料分布了。用均值 標準差來確定乙個正態分佈概率密度圖。比如n 2,0.5 就是均值為 2,標準差為0.5的正態分佈。而n 0,1 稱為標準正態分佈。這裡給出r應用 假設當在居...
SLAM中的卡方分布
視覺slam中相鄰幀特徵點匹配時,動輒上千個特徵點,匹配錯誤的是難免的,而誤匹配勢必會對位姿精度以及建圖精度造成影響,那麼如何分辨哪些是誤匹配的點對兒呢?如果已知兩幀的的單應矩陣,假設單應矩陣是沒有誤差的,那麼兩幀中匹配正確的特徵點通過單應矩陣是重投影是不應該有誤差的或者誤差十分小,而誤匹配的特徵點...