讀書筆記 統計學 從資料到結論 第八章

2021-07-08 15:49:03 字數 717 閱讀 7309

第八章 列聯表、χ²檢驗和對數線性模型

列聯表是觀測資料按兩個或更多屬性分類時所列出的頻數表,如圖是乙個三維的列聯表,每乙個數字代表相應的水平組合出現的頻數。

研究列聯表的乙個主要目的就是看這些變數是否相關,零假設是「變數1和變數2不相關」,對於兩個定類變數而言,這裡的檢驗統計量通常是計算觀測頻數與期望頻數的差,這種差值用乙個卡方統計量來表示,然後對這個卡方值進行檢驗,結果顯著的話,證明這兩個變數是關聯的。卡方分布又叫χ²分布。

對數線性模型可以用來表示列聯表,根據訪問結果落入列聯表各個格仔的概率分布,可以將模型分為多項分布對數線性模型和poisson對數線性模性。

多項分布對數線性

模型:以二維列聯表為例,假定不同的行代表第乙個變數的不同水平,不同的列代表第二個變數的不同水平,mij代表二維列表第i行第j列的頻數,假定列聯**子中的頻數屬於多項分布,該頻數可以描述為:

αi為行變數的第i個水平對ln(mij)的影響,βj為列變數的第j個水平對ln(mij)的影響,這兩個影響稱為主效應,其中各個水平的影響是相對的,所以事先要設定約束例如α1=0.因為還有可能兩個變數對於ln(mij)有共同的影響,所以更為完全的多項分布對數線性模型應該是:

(αβ)ij表示第乙個變數的第i個水平和第二個變數的第j個水平共同對ln(mij)的影響,稱為互動效應或互動作用。

讀書筆記 統計學 從資料到結論 第十章

第十章 主成分分析和因子分析 當變數很多,且有些變數是相關的時候,為了找出少數能夠代表它們的變數,就要用到主成分分析和因子分析,所以,主成分分析和因子分析都是用來降維的。假定原先資料是二維觀測值,在乙個二維座標系中,這些資料點形成乙個有橢圓形輪廓的點陣,這個橢圓有兩條軸,一條長軸和一條短軸,互相垂直...

統計學(二) 讀書筆記

第三章 定量資料的描述分析 對於數值型資料,1 首先通過直方圖觀察資料分布,是單峰,雙峰還是均勻分布,左偏還是右偏,還是對稱的,2 然後分析中心趨勢 中位數和均值 和離散趨勢 四分位差,標準差,極差 通常,有偏分布,分析中位數和四分位差,對稱分布,分析均值和標準差,注意,對於單峰分布,其四分位數差通...

《Head First 統計學》讀書筆記

本文目的 最近花了2周時間看完了 head first 統計學 又名 深入淺出統計學 看完後,感覺統計學的知識又撿起來了。在高中和大學的時候,學習統計學的目的很狹隘 為了應付考試。這次看 head first 統計學 的動機卻截然不同,由於前一陣子看了 集體智慧型程式設計 和 資料探勘導論 發現裡面...