資料分析的陷阱

2021-09-29 18:53:10 字數 2908 閱讀 6891

wiki原始連線:

當人們嘗試**兩種變數(比如新生錄取率與性別)是否具有相關性的時候,會分別對之進行分組研究。然而,在分組比較中都佔優勢的一方,在總評中有時反而是失勢的一方。該現象於20世紀初就有人討論,但一直到2023年,e.h.辛普森在他發表的**中闡述此一現象後,該現象才算正式被描述解釋。後來就以他的名字命名此悖論,即辛普森悖論。

請看下面的例子

一所美國高校的兩個學院,分別是法學院和商學院。新學期招生,人們懷疑這兩個學院有性別歧視。現作如下統計:

法學院性別

錄取拒收

總數錄取比例男生8

4553

15.1%

女生51

101152

33.6%

合計59

146205

商學院性別

錄取拒收

總數錄取比例

男生201

50251

80.1%

女生92

9101

91.1%

合計293

59352

根據上面兩個**來看,女生在兩個學院都被優先錄取,即女生的錄取比率較高。現在將兩學院的資料彙總:

性別錄取

拒收總數

錄取比例

男生209

95304

68.8%

女生143

110253

56.5%

合計352

205557

在總評中,女生的錄取比率反而比男生低。

女生單獨兩個向量斜率都比男生大,說明它們的比率都比較高。但最後男生總體向量斜率卻大於女生

借助一幅向量圖可以更好的了解情況(右圖)

這個例子說明,簡單的將分組資料相加彙總,是不能反映真實情況的。

就上述例子說,導致辛普森悖論有兩個前提。

兩個分組的錄取率相差很大,就是說法學院錄取率很低,而商學院卻很高。而同時兩種性別的申請者分布比重相反。女性申請者的大部分分布在法學院,相反,男性申請者大部分分布於商學院。結果在數量上來說,拒收率高的法學院拒收了很多的女生,男生雖然有更高的拒收率,但被拒收的數量卻相對不算多。而錄取率很高的商學院錄取了很多男生,使得最後彙總的時候,男生在數量上反而佔優。

有潛在因素影響著錄取情況。就是說,性別並非是錄取率高低的唯一因素,甚至可能是毫無影響的。至於在學院**現的比率差,可能是隨機事件。又或者是其他因素作用,比如入學成績,卻剛好出現這種錄取比例,使人誤認為這是由性別差異而造成的。

為了避免辛普森悖論的出現,就需要斟酌各分組的權重,並乘以一定的係數去消除以分組資料基數差異而造成的影響。同時,我們必需清楚了解情況,以綜合考慮是否存在造成此悖論的潛在因素。

wiki連線:

安斯庫姆四重奏(anscombe』s quartet)是四組基本的統計特性一致的資料,但由它們繪製出的圖表則截然不同。每一組資料都包括了11個(x,y)點。這四組資料由統計學家弗朗西斯·安斯庫姆(francis anscombe)於2023年構造,他的目的是用來說明在分析資料前先繪製圖表的重要性,以及離群值對統計的影響之大。

這四組資料的共同統計特性如下:

性質數值

x的平均數

9x的方差

11y的平均數

7.50(精確到小數點後兩位)

y的方差

4.122或4.127(精確到小數點後三位)

x與y之間的相關係數

0.816(精確到小數點後三位)

線性回歸線

在四幅圖中,由第一組資料繪製的圖表(左上圖)是看起來最「正常」的,可以看出兩個隨機變數之間的相關性。從第二組資料的圖表(右上圖)則可以明顯地看出兩個隨機變數間的關係是非線性的。第三組中(左下圖),雖然存在著線性關係,但由於乙個離群值的存在,改變了線性回歸線,也使得相關係數從1降至0.81。最後,在第四個例子中(右下圖),儘管兩個隨機變數間沒有線性關係,但僅僅由於乙個離群值的存在就使得相關係數變得很高。

愛德華·塔夫特(edward tufte)在他所著的《圖表設計的現代主義革命》(the visual display of quantitative information)一書的第一頁中,就使用安斯庫姆四重奏來說明繪製資料圖表的重要性。

四組資料的具體取值如下所示。其中前三組資料的x值都相同。

安斯庫姆四重奏 一

二三四x

yxyx

yxy10.0

8.04

10.0

9.14

10.0

7.46

8.06.58

8.06.95

8.08.14

8.06.77

8.05.76

13.0

7.58

13.0

8.74

13.0

12.74

8.07.71

9.08.81

9.08.77

9.07.11

8.08.84

11.0

8.33

11.0

9.26

11.0

7.81

8.08.47

14.0

9.96

14.0

8.10

14.0

8.84

8.07.04

6.07.24

6.06.13

6.06.08

8.05.25

4.04.26

4.03.10

4.05.39

19.0

12.50

12.0

10.84

12.0

9.13

12.0

8.15

8.05.56

7.04.82

7.07.26

7.06.42

8.07.91

5.05.68

5.04.74

5.05.73

8.06.89

資料分析的陷阱

wiki原始連線 當人們嘗試 兩種變數 比如新生錄取率與性別 是否具有相關性的時候,會分別對之進行分組研究。然而,在分組比較中都佔優勢的一方,在總評中有時反而是失勢的一方。該現象於20世紀初就有人討論,但一直到1951年,e.h.辛普森在他發表的 中闡述此一現象後,該現象才算正式被描述解釋。後來就以...

資料分析 資料分析的誤區

在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...

資料分析 資料分析概述

了解業務 了解資料 確認業務和資料 預期分析和管理 資料分析方式01.了解資料資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。屬性的型別 測量尺度 nominal 標稱 等於或者不等於 一對一的變換 ordinal 序數 大於或者小於 單調函式的變...