參考學習資料–可汗學院《統計學》課程12-26
樣本均值(sample mean)
計算方法:樣本總數求和/樣本個數
總體方差:sum((單個數值-平均值)**2)/數值個數
sum((樣本數值-樣本平均值)**2)/樣本個數
問題:會出現因取樣偏差導致的方差偏移
優化方法
sum((樣本數值-樣本平均值)**2)/(樣本個數-1)
擴充套件閱讀:
樣本方差與總體方差的區別(
總體方差的簡單計算辦法,每個樣品的平方的均值減去平均數的平方,
公式最後簡化如下:
兩種型別:離散隨機變數,連續隨機變數
離散:結果可列舉,有窮。比如:記錄拋骰子或硬幣的結果
連續:結果無窮 。比如:0-1之間大於0.5的數值
因為離散隨機的結果可列舉,所以生成的圖表為柱狀圖,如果求概率,只需要把滿足條件區間的值相加即可。
而連續隨機變數的結果無窮,如果求概率,需要用微積分計算函式中目標區間曲線的面積。(只能計算區間值,不能計算點值)
期望值等同於總體均值計算
在概率論和統計學中,期望值(或數學期望、或均值,亦簡稱期望,物理學中稱為期待值)是指在乙個離散性隨機變數試驗中每次可能結果的概率乘以其結果的總和 。
換句話說,期望值是隨機試驗在同樣的機會下重複多次的結果計算出的等同「期望」的平均值。需要注意的是,期望值並不一定等同於常識中的「期望」——「期望值」也許與每乙個結果都不相等。(換句話說,期望值是該變數輸出值的平均數。期望值並不一定包含於變數的輸出值集合裡。)
e(x)= n*p (n表示樣本個數,p表示發生概率)
比如投籃10次,命中率為40%,最後得到的命中數=10 *40%
當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算。
正態分佈在社會規律和生活中的應用
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學 論統計學知識點
二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...
統計學陷阱
1.內在有偏的樣本 樣本條件不一致,不具備準確性 3.沒有披露的資料 樣本過低 4.毫無意義的工作 利用毫無價值的資料宣傳產品,提高產品競爭力 5.驚人的統計圖形 圖表資料不展示基數,或省略中間部分 刻度值欺騙 6.平面圖形 在三維角度上,根據增加倍率相應變寬變高,達到視覺欺騙 7.不相匹配的資料 ...