箴言 統計學的智慧型七柱

2021-09-29 11:31:56 字數 1525 閱讀 6090

均值(聚合)【定向減少或壓縮資料的價值】,最小二乘法及其衍生方法的本質都是均值,它們通過對資料進行加權彙總而抹去資料的個體特性——指定的協變數除外。把資料集中的個體值進行統計彙總,概括出的資訊可以超越個體。甚至核密度估計和各類現代平化器在本質上也是均值。

例如:古老合法木棒的長度 = 16個人的腳長的算術平均值

資訊【資料量增長,價值會減少】,更具體地說是「資訊度量」,乙個資料集的資訊量僅與觀測個數n的平方根成正比,而不是與n本身成正。資料中的資訊可以測量,而測量的精度與資料量有關,某些情形下可以精確刻畫相關性的形式。

似然(likelihood)【使用概率測量我們做的事】,意味著使用了概率的推理校準。顯著性檢驗和普通的p值都是最簡單的似然形式。與「似然」有關的方法豐富多彩,或與費舍爾推斷的引數族有關,或與貝葉斯推斷的引數族有關。

相互比較【使用資料的內部變化幫助分析】,統計比較常常可以採用資料自身的內部標準,而不必採用外部標準。相互比較最常見的例子是學生t檢驗和方差分析檢驗。可能由於忽略外部科學標準而導致錯誤方式的濫用。我們可以將自助法視為相互比較在假設弱化後的現代版本。

回歸(regression)【從不同角度提問可以產生有啟發性的不同答案】。這個名稱源於高爾頓2023年發表的**,這份文獻基於二元正態分佈解釋了什麼是回歸。達爾文的自然選擇理論存在內部矛盾:選擇需要增加多樣性,但定義物種需要群體外觀穩定。高爾頓嘗試為這個理論設計乙個數學框架,並成功地克服了**化了)這組矛盾。

回歸現象的簡單解釋:假設有兩個不完全相關的觀測變數,你選擇了其中極值遠離均值的變數,那麼可以**另乙個不會那麼極端。高個子的父母平均會孕育出身高稍微矮的子女,而高個子的子女平均有身高稍矮的父母,回歸種族的平均身高。

設計(design)【規劃觀測的重要作用】。類似於在於「實驗設計」中的含義,但「設計」的範圍更為廣泛,它的目標是:先設定觀測的權重相同,再訓練我們的思想。

殘差【所有這些思想如何用於科學探索和比較彼此矛盾的解釋】。「複雜的現象…可以通過減去已知原因的影響進行簡化…留下…需要解釋的殘差現象。通過這樣處理…科學…得到了極大的促進。」。每個對回歸係數顯著性的檢驗都體現了這種思想,針對時間序列的每乙個探索亦是如此。

統計學自誕生以來,統計學的工作內容經歷來翻天覆地的變化:從極端強調「統計學家僅收集資料而不分析」,轉變為從計畫到分析的所有研究階段皆積極尋求與科學家的合作。

無論過去還是現在,以上平淡的稱述都沒有表現出這些思想出現是的革命性,這些思想——從放棄資料值的個體特點到降低新資料和等價值資料的權重,再到克服障礙使用概率測量博弈外部的不確定性——已經丟棄或推翻了既有的牢固數學和科學信念。

很多關於統計學的批判:

大資料僅僅可以回答基於規模的基礎的問題

顯著性檢驗會忽略問題的科學內容

泯滅個性獨特的個人,追求統計的一般普遍性

推薦閱讀:

乙個公式緩解 你99%的蕉綠

支撐統計學的七大支柱!

支撐統計學的七大支柱!jsm上統計界的老幫主stephen stigler做了乙個主題演講,講 統計學的七大支柱 好心又認真的rick wicklin同學記了筆記,彼時估計還在中國城吃飯的我才得以了解ss大人到底講了什麼。回頭看看筆記,我覺得ss大人有點吹噓統計學之嫌。所謂支柱,就是沒了它咱就垮了。...

七周速學資料分析(統計學篇)

前面我們為大家講述了excel 資料視覺化 資料分析思維 資料庫的知識。學會了這些就相當於學會了資料分析一般的內容,但是這些知識並不能構成乙個完整的資料分析知識體系,還需要學習統計學 python r以及業務知識,現在就給大家講解一下統計學的知識。就目前而言,很多資料分析師統計學基礎知識並不是很重視...

在統計學中 統計學中的基本概念

統計學的幾個基本概念 總體和總體單位 1.總體 總體的概念 總體是指客觀存在的 具有某種共同性質的 許多個別事物組成的整體 在統計研究過程當中,統計研究的目的和任務居於支配和主導的 地位,有什麼樣的研究目的就應該有什麼樣的統計總體與之相適應。例如 要研究我們學院教師的工資情況,那麼全體教師就是研究的...