辛普森悖論

2021-07-29 15:49:24 字數 1814 閱讀 2008

辛普森悖論(simpson』s paradox)亦有人譯為辛普森詭論,為英國統計學家e.h.辛普森(e.h.simpson)於2023年提出的悖論,即在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

當人們嘗試**兩種變數是否具有相關性的時候,比如新生錄取率與性別,報酬與性別等,會分別對之進行分組研究。辛普森悖論是在這種研究中,在某些前提下有時會產生的一種現象。即在分組比較中都佔優勢的一方,會在總評中反而是失勢的一方。該現象於20世紀初就有人討論,但一直到2023年e.h.辛普森在他發表的**中,該現象才算正式被描述解釋。後來就以他的名字命名該悖論。

為了避免辛普森悖論的出現,就需要斟酌各分組的權重,並乘以一定的係數去消除以分組資料基數差異而造成的影響。同時必需了解清楚情況,是否存在潛在因素,綜合考慮。

例項

(以下內容取材自維基百科與科普寫作獎佳作獎作者林守德的向理性與直覺挑戰的頑皮精靈-綜觀詭譎的悖論等文)

「校長,不好了,有很多男生在校門口**,他們說今年研究所女生錄取率42%是男生21%的兩倍,我們學校遴選學生有性別歧視」,校長滿臉疑惑的問秘書:」我不是特別交代,今年要盡量提公升男生錄取率以免落人口實嗎?」

秘書趕緊回答說:」確實有交代下去,我剛剛也查過,的確是有注意到,今年法學院錄取率是男性75%,女性只有49%;而商學院錄取率是男性10%,女性為5%。二個學院都是男生錄取率比較高,校長這是我作的調查報告。」

「秘書,你知道為什麼個別錄取率男皆大於女,但是總體錄取率男卻遠小於女嗎?」

前提

上面例子說明,簡單的將分組資料相加彙總,是不一定能反映真實情況的。就上述例子錄取率與性別來說,導致辛普森悖論有兩個前提。

(1) 兩個分組的錄取率相差很大,就是說商學院錄取率9.2%很低,而法學院53.3%卻很高,另一方面,兩種性別的申請者分布比重卻相反,女生偏愛申請法學院,故法學院女生申請比率佔83.3%,相反男生偏愛申請商學院,因此商學院女生申請比率只佔0.167%。結果在數量上來說,錄取率低的商學院,因為女生申請為數少,所以不錄取的女生相對很少。而錄取率很高的法學院雖然錄取了很多男生,但是申請者卻不多。使得最後彙總的時候,女生在數量上反而佔優勢。

(2) 性別並非是錄取率高低的唯一因素,甚至可能是毫無影響的,至於在法商學院中出現的比率差可能是屬於隨機事件,又或者是其他因素作用,譬如學生入學成績卻剛好出現這種錄取比例,使人牽強地誤認為這是由性別差異而造成的。

此例這就是統計上著名的辛普森悖論(simpson』s paradox)

迴避方式

為了避免辛普森悖論出現,就需要斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。

管理應用

辛普森悖論就像是欲比賽100場籃球以總勝率評價好壞,於是有人專找高手挑戰20 場而勝1場,另外80場找平手挑戰而勝40場,結果勝率41%,另一人則專挑高手挑戰80場而勝8場,而剩下20場平手打個全勝,結果勝率為28%,比 41%小很多,但仔細觀察挑戰物件,後者明顯較有實力。

量與質是不等價的,無奈的是量比質來得容易量測,所以人們總是習慣用量來評定好壞,而此資料卻不是重要的。除了質與量的迷思之外,辛普森悖論的另外乙個啟示是:如果我們在人生的抉擇上選擇了一條比較難走的路,就得要有可能不被賞識的領悟,所以這算是懷才不遇這個成語在統計上的詮釋。

學習總結自

辛普森悖論

定義 在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。辛普森悖論就是當你把資料拆開細看的時候,細節和整體趨勢完全不同的現象。措施 斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。如何才...

辛普森悖論簡單解釋

引自 uc bekeley 研究生錄取男女性別歧視的問題 1.問題背景 1973年秋季入學 女性同學因男女的錄取率男性高於女性認為不公向校長申訴 在學校層面上,單純從資料上看確實男性的錄取率要高於女性。但在每個系單獨拿出來,卻顯示出了不同的結果,大部分系普遍女性的錄取比例高於男性。普遍存在這種現象,...

一天乙個統計小知識 辛普森悖論

辛普森悖論是在說 在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。怎麼理解這句話呢?下面使用乙個小例子來進行具體宣告。例子 鵝廠為了比較英雄聯盟和王者榮耀這兩款遊戲哪個更受歡迎,分別抽取了1000個男生和1000個女生進行問卷調查,調查結果 假設英雄聯盟和...