女士品茶 簡單摘錄

2022-08-31 00:24:16 字數 3177 閱讀 1613

費歇爾:實驗設計的第一步是建立一組數學公式,用以描述待蒐集資料與欲估計結果之間的關係,因此,任何有用的實驗必須是能夠提供估計結果的。

費歇爾:人們不可避免地會發現以前所得出的觀點,至少在一定程度上,明顯是過時的或者錯誤的。

費歇爾:真實分布只是乙個抽象的數學公式,蒐集的資料只能用來估計這個真實分布的引數。

費歇爾:測量值是從所有可能出現的測量值中隨機選取的,依據隨機選取的資料計算得出的乙個引數的任何估計值,其結果本身也具有隨機性,因此,也會服從一種概率分布。

費歇爾定義統計量為:從觀察到的測量值得出的、可用來估計其分布引數的乙個數值。

評判乙個好的統計量的三個準則:1)一致性(consistency);2)無偏性(unbiasedness);3)有效性(efficiency)。

對於某一特定資料集,我們永遠不知道乙個統計量的值是否正確,只能說我們用一種方法得出來乙個符合這些準則的統計量。

高爾頓發現向平均回歸:表現為非常高的父親,其兒子往往要比父親矮一些;而非常矮的父親,其兒子往往要比父親高一些。

k 皮爾遜發現「偏斜分布」,宣傳期可以描述科學家在資料中可能遇到的任何散布型別,其分布由四個數字所確定,分別為:平均數、標準差、對稱性和峰度。

k 皮爾遜提出,觀測到的現象只是一種隨機的映像,不是真實的,所謂的真實是概率分布。即科學的物件並不是不可觀測事物本身,而是數學分布函式,以描述與所觀測事物相聯絡的概率。

k 皮爾遜的所有工作都假定:樣本足夠大,以至於確定引數可以沒有誤差。

布利斯發明「概率單位分析」,其模型建立了「殺蟲劑的劑量」與「使用該劑量時乙隻蟲子會死掉的概率」這兩者間的關係。有可得出:對乙隻特定的用做試驗標本的蟲子,要確定殺死它所需要的劑量是不可能的。

大量資料集合的平均數都有乙個統計分布,而中心極限定理則闡明,無論初始資料是怎麼來的,這個分布都可以用正態概率分布來逼近。

由正態隨機變數推演得出的許多統計量,其自身也服從正態分佈。

證明林德伯格利維條件成立,那麼中心極限定理就成立。乙個統計量如果屬於u-統計量,則滿足林德伯格利維條件。

混沌理論:某種形式的統計建模明顯帶著雜亂無序特徵的隨機性。

混沌的數學函式對初始條件非常敏感,初始條件的些微差異,經過多次迭代之後,將導致全然不同的結果。

混沌理論源於這樣的觀察:乙個固定不變的確定性公式生成的數字可能看上去是乙個具有隨機性的模型。其擁護者認為:現實生活中看上去是純隨機的測量值,實際上是由某個確定性的方程組生成的,這些方程可以從普安卡雷影象的模式推演出來。

在早期的確定性方法中,有乙個信條,越精確的測量,對所考察的自然客體的描述也就越精確。而在統計方法中,分布引數有時候不必有乙個自然客體,無論多麼精確的測量系統,分布引數的估計值終究是有誤差的。

「假設檢驗」:在「待檢驗的假設為真」的假設前提下,用來計算以往觀察到的結果發生的概率。

顯著性檢驗只是告訴他什麼是應該忽略掉的,也就是說應該把所有那些無法得到顯著性結果的實驗忽略掉。

奈曼:除非至少有兩個可能的假設,否則顯著性檢驗根本就沒有意義。即,你不可能檢驗一組資料是否服從正態分佈,除非你認為該組資料也可能會被其它的一些分布或分布集來擬合。計算p值是為了檢驗零假設,而檢驗的效力則是指備擇假設為真的條件下p值的表現效果。

1)檢驗的效力是用來測量乙個檢驗方法好壞的指標,兩種檢驗方法中效力較強的方法就是較好的方法;2)備擇假設不能太多。

大數定律指出:如果某事件有給定的概率(比如擲乙個色子,得到六點這一事件的概率是六分之一),而且如果我們重複地進行相同的試驗時,該事件發生的次數的比率就會越來越接近這個概率值。

如果我們不能夠說某個估計值是絕對準確的,那麼我們還有沒有辦法可以說這個估計值與引數的真值之間有多接近呢?——區間估計。

資料是觀測得來的,引數是固定的值(儘管未知的),因此引數取某個特定值的概率只有兩個結果,或者是100%(如果它就是那個值),或者是0(如果它根本不是那個值)。然而,乙個95%的置信區間涉及的95%的概率,這個概率指的是什麼?

不應該從每乙個結論的角度看待置信區間,而應該將其視為乙個過程。從長期來看,對於一直計算95%的置信區間的統計學家來說,他們將發現,在總次數中,引數的真值將有95%的機會落在所計算的區間內。

薩維奇認為:世界上並沒有「已被證明的科學事實」這樣的事情。有的只是一些陳述,而那些自認為是科學家的人對這些陳述持有很高的贊成概率。

貝葉斯方法一開始是假設在乙個人的頭腦中有一組先驗概率,接下來這個人經過觀察或實驗產生了資料,然後拿這組資料來修正先驗概率,生成一組後驗概率。

統計方法核心的數學哲學問題:1)概率的真正數學基礎是什麼?2)面對像**過後的餘震這類長時間蒐集上來的資料時,我們可以做些什麼?

判斷樣本的缺陷:1)只有當我們確信對大總體具有充分的了解,可以將總體劃分為能用一些個體來代表額幾個子總體時,判斷樣本才具有代表性;2)如果判斷樣本的估計結果是錯的,我們無法知道該結果與真值到底相關多少。

事前研究的缺陷:1)如果研究是小範圍的,結論也許只是針對某個特定群體而言的,不能將它推廣到更廣泛的人群當中;2)為了讓事件發生足夠多,允許作有意義的分析,研究持續的時間必須很長。

瑕疵的解決方法:1)如果測量值有瑕疵,就降低瑕疵測量值的影響力;2)如果測量值沒有瑕疵,就找出正確答案。

戴明認為:通常情況下,管理者往往設立一些不可能實現的標準,他們不在意標準是否可以達到,也不嘗試著如何通過傳送裝置等必要手段,來使這些標準得以實現。要改變乙個產品的質量,產品的質量就得是可測的。

柯爾莫戈洛夫對概率的數學定義:概率是乙個抽象空間裡對一事件集合的一種測量。

如果我們不能確定可進行概率計算的事件空間,那麼就不能說某種模型比另外一種更適用。

凱恩斯認為:概率是在某一文化教育背景下的人們,對其既定情況的不確定性的測量,概率的判斷不僅是個人內心的直覺,還與個人的文化背景有關係。認為,概率不再以事件空間為基礎,而是產生於所涉及人員的個人感覺的數值。

點集拓撲學

有限數學群

無維度向量空間

元數學代數

代數拓撲學

序貫分析

決策理論

經驗貝葉斯法(empirical bayes)

層次貝葉斯模型(hierarchal bayes methods)

分組理論(classification theory)

元數學(metamathematics)

圖基引理

快速傅利葉變換

穩健估計

博克斯-考克斯變換(box-cox transformation)

斯蒂爾切斯積分(stieltjes integral)

運算密集法

核密度估計(kernel density estimation)

《女士品茶》讀書筆記

書的名字 於統計學史上著名事件,也就是假設檢驗的原型 費希爾對一位聲稱自己能夠分清午茶是先加奶還是先加茶。書的主要內容不是統計學的各種公式,而是各種公式 定理的來由,以及其發現者的故事。簡單地,做一下今天所看內容的筆記 卡爾 皮爾遜,19世紀90年代,英國皇家統計協會的成員,在當時的統計學界很有威望...

《女士品茶》讀書筆記

書的名字 於統計學史上著名事件,也就是假設檢驗的原型 費希爾對一位聲稱自己能夠分清午茶是先加奶還是先加茶。書的主要內容不是統計學的各種公式,而是各種公式 定理的來由,以及其發現者的故事。簡單地,做一下今天所看內容的筆記 卡爾 皮爾遜,19世紀90年代,英國皇家統計協會的成員,在當時的統計學界很有威望...

vi的簡單引數摘錄

一直使用vi修改linux作業系統下的配置檔案,用過最難用的是使用solaris10預設的vi,所有操作,甚至游標移動都用命令查詢,當時真是痛苦無比啊。solaris是unix下的乙個分支,估計其他unix預設都是用同它一樣的vi。今天正好有時間重新看一遍鳥哥linux教程的vi章節,操作了一遍,其...