定義:在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。(辛普森悖論就是當你把資料拆開細看的時候,細節和整體趨勢完全不同的現象。)
措施:斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。
如何才能在 ab 測試的設計,實施,以及分析的時候,規避辛普森悖論造成的各種大坑呢?
最重要的一點是,要得到科學可信的 ab 測試試驗結果,就必須合理地進行正確的流量分割,保證試驗組和對照組裡的使用者特徵是一致的,並且都具有代表性,可以代表總體使用者特徵。
在這裡,特別要提出一下這個問題的乙個特殊屬性:**在流量試驗越大時,辛普森悖論發生的條件越有可能觸發。**這是乙個和大數定理以及中心極限定理等「常規」實踐經驗完全不同的統計學現象。換句話說,大流量試驗比小流量試驗可以消除很多噪音和不確定性,但是反而可能受到辛普森悖論的影響。
舉個例子說明:如果只是拿100人做試驗,50人一組隨機分配,很可能是28男22女對22男28女,每個性別只是相差6個人而已。如果是拿10000人做試驗,5000人一組隨機分配,很可能是2590男2410女對2410男2590女,每個性別就差了180人,而這180人造成的誤差影響就可能很大。
除了流量分配的科學性,我們還要注意 ab 測試的試驗設計與實施。
在試驗設計上,如果我們覺得某兩個變數對試驗結果都有影響,那我們就應該把這兩個變數放在同一層進行互斥試驗,不要讓乙個變數的試驗動態影響另乙個變數的檢驗。如果我們覺得乙個試驗可能會對新老客戶產生完全不同的影響,那麼就應該對新客戶和老客戶分別展開定向試驗,觀察結論。
在試驗實施上,對試驗結果我們要積極地進行多維度的細分分析,除了總體對比,也看一看對細分受眾群體的試驗結果,不要以偏蓋全,也不要以全蓋偏。乙個試驗版本提公升了總體活躍度,但是可能降低了年輕使用者的活躍度,那麼這個試驗版本是不是更好呢?乙個試驗版本提公升總營收0.1%,似乎不起眼,但是可能上海地區的年輕女性 iphone 使用者的購買率提公升了20%,這個試驗經驗就很有價值了。
分層試驗,交叉試驗,定向試驗是我們規避辛普森悖論的有力工具。
規避辛普森悖論,還要注意流量動態調整變化的時候新舊試驗參與者的資料問題,試驗組和對照組使用者數量的差異問題,以及其他各種問題。
辛普森悖論
辛普森悖論 simpson s paradox 亦有人譯為辛普森詭論,為英國統計學家e.h.辛普森 e.h.simpson 於1951年提出的悖論,即在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。當人們嘗試 兩種變數是否具有相關性的時候,比如新生錄取率與...
辛普森悖論簡單解釋
引自 uc bekeley 研究生錄取男女性別歧視的問題 1.問題背景 1973年秋季入學 女性同學因男女的錄取率男性高於女性認為不公向校長申訴 在學校層面上,單純從資料上看確實男性的錄取率要高於女性。但在每個系單獨拿出來,卻顯示出了不同的結果,大部分系普遍女性的錄取比例高於男性。普遍存在這種現象,...
一天乙個統計小知識 辛普森悖論
辛普森悖論是在說 在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。怎麼理解這句話呢?下面使用乙個小例子來進行具體宣告。例子 鵝廠為了比較英雄聯盟和王者榮耀這兩款遊戲哪個更受歡迎,分別抽取了1000個男生和1000個女生進行問卷調查,調查結果 假設英雄聯盟和...