支撐統計學的七大支柱!

2021-09-07 01:18:19 字數 1489 閱讀 9108

支撐統計學的七大支柱!

jsm上統計界的老幫主stephen stigler做了乙個主題演講,講「統計學的七大支柱」,好心又認真的rick wicklin同學記了筆記,彼時估計還在中國城吃飯的我才得以了解ss大人到底講了什麼。回頭看看筆記,我覺得ss大人有點吹噓統計學之嫌。所謂支柱,就是沒了它咱就垮了。七大支柱為:

彙總:我們從資料彙總中獲得知識。本小子認為彙總是統計的經典用途,但彙總(描述統計)只是統計學的一方面,另乙個同樣重要也相對更靠譜一些的方面是**。我從來都是揚**而抑彙總的,因為統計學生來就帶有不靠譜的本性,彙總搞錯了無從查證,**錯了一定程度上我們還是知道錯了多遠的。

邊際效應遞減:隨著資料量增大,資訊量並不是線性增加,而是到了一定程度之後可能就沒太多新的資訊了。ss大人用n(樣本量)的平方根來形容這個遞減,我覺得太牽強了,例如樣本均值的標準誤裡有個n的平方根,但這跟資訊有毛線關係呢?

似然/概率:概率論當然是統計學的支柱,當然也要取決於我們怎麼定義統計學,但說概率是數理統計的基礎肯定不會有人不同意。有人說統計是「研究不確定性的科學」,我現在最煩的就是「科學」二字,人人都把自己的工作公升級為科學,尼瑪什麼是科學?我認為數學/數理統計可以是學科,但不是科學。要稱自己的做的是科學,先問問那些養兔子和大腸桿菌的苦逼博士們再想想自己做的算不算科學。說自己研究的是一門學科又沒什麼丟人的,這年頭神馬「資料科學」,以及孟生旺老師諷刺的「數學科學學院」(乙個名字裡三個重複的字,直接叫「數學系」丟人嗎?),都是一些沒有底氣的人才想出來的名詞。我敬佩老老實實做實驗的自然科學工作者,不是說用紙筆推公式的工作者做的是無意義的事情或者不苦逼,而是說沒事不要在這些稱謂上較勁,安分守己一點比較好。

橫向比較:例如比較兩樣本均值的差異。ss大人講別的學科是與「金標準」進行比較,而我們是在資料內部比較,如方差分析anova和t檢驗。我沒太明白這算什麼支柱,而且統計裡面也不是沒有和「金標準」比較的情形啊。

回歸和多元分析:身高的回歸是經典例子了,這確實是乙個有趣的發現,但現實中回歸被用來做什麼了呢?我感覺回歸的主要作用是被鋪天蓋地的**拿來當炮灰(你看,俺的方法比回歸好),或者在外專業裡面當萬精油(你看,俺跑了個回歸,係數顯著耶)。與其說某種方法是支柱,不如說方法和領域知識的結合是支柱。沒有具體的領域知識,跑個係數顯著的回歸只是盲人摸象。

試驗設計:這個當然也很重要,我覺得這是七大支柱裡唯一可以稱為支柱的乙個,因為它可以脫離領域知識而有效。沒有比較就沒有鑑別,大家都知道要比較,但怎麼比是個關鍵問題。例如前些日子火爆的漢字聽寫大賽就違反了「隨機」、「重複」、「對照」等試驗設計基本原則,在缺乏概率指導下的競賽,難免有些不公平。

模型和殘差:這個有點侷限於回歸套路了,不是所有模型都涉及殘差項的。若不檢查殘差的分布,統計學會不會垮掉?我認為未必。即使殘差仍然有明顯的特徵,模型也未必完全不合適,這要看你想要獲取模型中哪部分的資訊。

摘自謝益輝《統計學的七大支柱》

文章出處:

概率論七大分布 統計學的七大支柱

統計學的七大支柱?jsm上統計界的老幫主 stephen?stigler 做了乙個主題演講,講 統計學的七大 支柱 好心又認真的 rick?wicklin 同學記了筆記,彼時估計還在中國城吃飯 的我才得以了解 ss大人到底講了什麼。回頭看看筆記,我覺得 ss大人有點吹 噓統計學之嫌。所謂支柱,就是沒...

箴言 統計學的智慧型七柱

均值 聚合 定向減少或壓縮資料的價值 最小二乘法及其衍生方法的本質都是均值,它們通過對資料進行加權彙總而抹去資料的個體特性 指定的協變數除外。把資料集中的個體值進行統計彙總,概括出的資訊可以超越個體。甚至核密度估計和各類現代平化器在本質上也是均值。例如 古老合法木棒的長度 16個人的腳長的算術平均值...

七周速學資料分析(統計學篇)

前面我們為大家講述了excel 資料視覺化 資料分析思維 資料庫的知識。學會了這些就相當於學會了資料分析一般的內容,但是這些知識並不能構成乙個完整的資料分析知識體系,還需要學習統計學 python r以及業務知識,現在就給大家講解一下統計學的知識。就目前而言,很多資料分析師統計學基礎知識並不是很重視...