本文目的
最近花了2周時間看完了《head first 統計學》(又名《深入淺出統計學》)。看完後,感覺統計學的知識又撿起來了。在高中和大學的時候,學習統計學的目的很狹隘——為了應付考試。這次看《head first 統計學》的動機卻截然不同,由於前一陣子看了《集體智慧型程式設計》和《資料探勘導論》,發現裡面很多地方應用了統計學,原來統計學的作用如此強大,所以決定重溫統計學,並希望在將來的工作中可以派上用場。《head first 統計學》中的內容比較生動有趣,讀完後對「貝葉斯定理」,「卡方分布」,「抽樣統計」,「線性回歸」,「皮爾森係數」,「抽樣的方差為什麼除以n-1」,都有了新的認識,這些內容在前面的提到的兩本書中均有涉及。本文記錄《head first 統計學》使我映像深刻的內容,作為備忘。
章節聯絡
個人認為本書可以分為三大部分:
常見概率分布
概率統計應用
前六章
前六章的內容比較基礎,主要講了直方圖,條形圖,折線圖,均值,中位數,眾數,四分位數,k分位數,方差,標準差,韋恩圖(高中稱之為「文氏圖」),互斥事件,相關事件,獨立事件,條件概率,貝葉斯定理(這個與「獨立事件概率」在文字自動分類中被廣泛運用),概率分布,期望,排列與組合。這些概念高中課本全都涉及,如果高中數學這部分基礎紮實,那麼看起來會比較輕鬆。值得強調的是每章內容都會設計乙個場景來將所有知識點穿起來,這樣比較生動,記憶深刻。比如「小孩游泳班的平均年齡異常」引出「眾數」這個概念。用「輪盤賭每格的顏色和奇偶性」引出「相關事件」和「相關事件的概率」。還有很多例子,這裡不一一舉例了。
七、八、九章
這幾章主要講解了一些常見的離散的概率分布:
特備值得指數的是二項分布在n很大時,計算量很大,如果此時概率p很小(p<0.1),那麼可以用珀松分布近似計算二項分布。除了介紹離散的概率分布外,還介紹了應用最為廣泛的連續概率分布——正太分布(又稱「高斯分布」)。因為自然界中很多現象都可以用正太分布建模,比如人類的身高,體重等。如果能夠用正太分布建模,那麼可以很方便的計算出概率(通過標準化後查表獲得)。正太分布還有乙個特性:當n很大,並且p符合一定條件時,可以用正太分布近似計算「二項分布」(np>5且nq>5)和「珀松分布」(λ>15時),但是需要進行連續性修正。
後面六章
接下來的章節主要介紹了概率統計在實際中的運用:
結語
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學(二) 讀書筆記
第三章 定量資料的描述分析 對於數值型資料,1 首先通過直方圖觀察資料分布,是單峰,雙峰還是均勻分布,左偏還是右偏,還是對稱的,2 然後分析中心趨勢 中位數和均值 和離散趨勢 四分位差,標準差,極差 通常,有偏分布,分析中位數和四分位差,對稱分布,分析均值和標準差,注意,對於單峰分布,其四分位數差通...
統計學 論統計學知識點
二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...