拓端tecdat R語言t檢驗和非正態性的魯棒性

2022-06-07 14:00:16 字數 814 閱讀 1558

t檢驗是統計學中最常用的檢驗之一。雙樣本t檢驗允許我們基於來自兩組中的每一組的樣本來測試兩組的總體平均值相等的零假設。

這在實踐中意味著什麼?如果我們的樣本量不是太小,如果我們的資料看起來違反了正常假設,我們就不應過分擔心。此外,出於同樣的原因,即使x不正常(同樣,當樣本量足夠大時),組均值差異的95%置信區間也將具有正確的覆蓋率。當然,對於小樣本或高度偏斜的分布,上述漸近結果可能不會給出非常好的近似,因此型別1誤差率可能偏離標稱的5%水平。

現在讓我們用r來檢驗樣本均值分布(在重複樣本中)收斂到正態分佈的速度。我們將模擬來自對數正態分佈的資料 - 即log(x)遵循正態分佈。我們可以通過從正態分佈中取冪隨機抽取來從此分布中生成隨機樣本。首先,我們將繪製乙個大的(n = 100000)樣本並繪製其分布以檢視它的外觀: 我們可以看到它的分布是高度偏斜的。從表面上看,我們會擔心對這些資料使用t檢驗,假設x是正態分佈的。

為了看看樣本的樣本分佈,我們將選擇樣本大小為n,並從對數正態分佈中重複繪製大小為n的樣本,計算樣本均值,然後繪製這些樣本均值的分布。以下顯示n = 3的樣本平均值的直方圖(來自10,000個重複樣本):

樣本均值的分布,n = 3

這裡的取樣分布是傾斜的。如此小的樣本量,如果其中乙個樣本從分布的尾部具有高值,則這將給出與真實均值相差很遠的樣本均值。如果我們重複,但現在n = 10: 它現在看起來更正常,但它仍然是偏斜的 - 樣本均值有時很大。請注意,x軸範圍現在更小 - 樣本均值的可變性現在小於n = 3。最後,我們嘗試n = 100:

當然,如果x不是正態分佈的,即使假設正態性的t檢驗的型別1錯誤率接近5%,測試也不會是最佳的。也就是說,將存在零假設的替代測試,其具有檢測替代假設的更大功率。

拓端tecdat R語言使用混合模型進行聚類

混合模型是k個分量分布的混合,它們共同形成混合分布 f x f x f x k 1 f x f x k 1k kfk x 讓我們通過乙個例子激發您為何使用混合模型的原因。讓我們說有人向您展示了以下密度圖 我們可以立即看到所得到的分布似乎是雙峰的 即有兩個凸起 表明這些資料可能來自兩個不同的 head...

拓端tecdat R語言旅行推銷員問題TSP

常用術語中的旅行推銷員問題 tsp 是最複雜的問題之一,歸結為組合優化。旅行到n個城市 頂點 需要檢查 n 1 可能性。3,000個地點有4 10 9131個可能的解決方案。以下 輸入您的tsp225.csv檔案並輸出您的解決方案和視覺化。生成的 tour 物件是一類tour和整數 它包含您的解決方...

拓端tecdat R語言最優化問題中的共軛函式

在回歸模型研究中,我們將討論優化,而經典工具就是所謂的共軛。給定函式f rp r,其共軛值為函式f rp r使得 視覺化考慮乙個簡單的拋物線函式 在維度1中 f x x 2 2,然後f 2 是線x 2x與函式f x 之間的最大距離。f function x x 2 2 fstar function ...