什麼是T檢驗

2021-08-19 22:32:22 字數 1912 閱讀 1350

很多的檢驗和我們的直覺是一致的,前陣子在乙個群裡,有管理學院的人問說想看兩個樣本是不是來自於同乙個分布,我叫他畫兩個cdf,一看就知道。對方說不要看圖,我就讓他用kolmogorov-smirnov tests。我自己搜了一下,發現ks.test檢驗的就是拿兩個cdf的距離做為統計量,雖然計算很複雜,但是和intuition那是相當一致啊。

最簡單也最常用的,莫過於t檢驗,用我們的直覺就可以理解了,但是我發現不理解還有用錯的人也挺多的。

我們要看乙個樣本的均值是不是等於0,最*****的辦法就是看樣本的均值和0差別多大。

這個比較之所以*****,因為沒有考慮到資料的分布,從上圖的兩個populations來看,它們的均值都是0,從綠色的分布中抽到乙個均值為3的樣本,概率並不小,但是從紅色的分布中得到這樣乙個樣本,那就是小概率事件。所以不能單純比較均值,而是要看均值的分布,從上面的populations上看,和資料的離散程度有關。 我們隨機抽取100個sample,得到以下的均值分布:

我們需要對均值的離散程度做penalty,那麼就可以考慮這樣乙個統計量mean(x)/sem, sem代表standard error of the mean,那麼這個統計量比單純的均值要科學得多。這個統計量,就是學生氏所定義的t。

如果沒有大量的樣本,是沒辦法估計sem的,但是從上面兩個圖上看,樣本間均值的標準誤sem,和總體資料的標準誤是正相關的。而總體的標準誤可以用樣本的標準誤,sd(x),來估計。如果我們考慮最簡單的形式呢?定義統計量mean(x)/sd(x)。

那麼,請等一下,我們還需要考慮到樣本量的影響,如果sample size沒有影響,那麼我們就不需要採集大樣本了。從我們的直覺上看,肯定是樣本量越大,對總體引數的估計越準確了。

從圖上看,還是和直覺很一致。sample size越大,分布越compact,對總體均值的估計也就越準確。那麼就需要使用sample size進行加權,把統計量修改為mean(x)/sd(x) * f(n),其中n為sample size。

我們可以想像,學生氏當年try了幾種形式的f(n),發現sqrt(n)效果最好。於是他就定義了統計量: t = mean(x)/(sd(x)/sqrt(n))。 sqrt(n)效果好,因為sd(x)/sqrt(n)正好是對樣本間均值標準誤sem的估計。

我們又可以想像,學生氏當年收集了很多個樣本,計算了多個t值,發現這些t值的分布是有規律的,有點像正態分佈,學生氏把它定義為t分布,利用t分布的probability density function,就可以計算p-value啦。

上圖就是從標準正態分佈裡抽取100個樣本,所計算的t值分布。

很多人上課學不懂,我覺得是因為一上來告訴你t怎麼算,但是沒讓你理解sem,sem是理解t值計算的關鍵。

算完t之後,一句話,符合t分布,然後就是查表看p值,或者讓計算機算,太抽象,這世界本來沒有t分布,是學生氏定義了t統計量,並發現符合某分布,把它定義為t分布,有計算機做simulation,重現這個過程,就不抽象了,也就好理解了。

至於兩樣本,如果是paired的話,那就是paired之間相減,用差值做單樣本t檢驗。如果不是成對,那就是t=(mean(x1)-mean(x2))/sedm.

其中sedm代表standard error of difference of means,這裡有乙個pool與否的問題,sedm看上去稍微複雜了一點點,但是basic idea是一樣的,非常好理解。

T檢驗和F檢驗

1,t檢驗和f檢驗的由來 一般而言,為了確定從樣本 sample 統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。通過把所得到的統計檢定值,與統計學家建立了一些隨機變數的概率分布 probabilitydistribution 進行比較,我們可以知道在多少 的...

什麼是假設檢驗?

目錄 假設檢驗原理 置信區間 反證法小概率思想 假設檢驗步驟 假設檢驗的意義 在引數估計的區間估計中,我們提到置信區間的概念,有提到置信區間最主要的應用是用於假設檢驗。詳情請見 什麼是引數估計 那什麼是假設檢驗?假設檢驗 test of bypothesis 是統計推斷的乙個重要內容,用於判斷某個假...

卡方檢驗,U檢驗,t檢驗,F檢驗

卡方檢驗 主要用於等級資料 t檢驗 適用於計量資料 正態分佈 方差具有齊性的兩組間小樣本比較。包括配對資料間 樣本與均數間 兩樣本均數間比較三種,三者的計算公式不能混淆。也可以這樣理解主要是用於小樣本 樣本容量小於30 的兩個平均值差異程度的檢驗方法。u檢驗 檢驗應用條件與t檢驗基本一致,只是當大樣...