stat 概率統計 統計推斷 統計決策理論

2021-09-06 09:45:19 字數 1489 閱讀 1365

一、概率統計

概率vs. 統計

概率:研究隨機事件出現的可能性的數學分支,描述非確

定性(uncertainty)的正式語言,是統計推斷的基礎

概率: 乙個事件或事件集合出現的可能性

基本問題:給定以乙個資料產生過程,則輸出的性質是什麼

統計推斷:處理資料分析和概率理論的數學分支,與資料

挖掘和機器學習是近親

統計量:乙個用以描述樣本或總體性質的數值,如均值或方差

基本問題:給定輸出資料,我們可以得到該資料的產生過程的哪些資訊

統計學 ≈ 根據資料進行推理的學科

統計學習 ≈多元統計分析 + 計算統計學

多元統計分析 ≈ 基於乙個多元變數資料集,**函式值

計算統計學 ≈ 統計問題的計算方法 (a.k.a. 統計計算) + 計算繁重的統計方法

資料探勘 ≈ 研究資料分析,尤其是大資料量/複雜的資料集

統計學習的基本問題

有監督/無監督學習

有監督學習:回歸、分類

無監督學習:概率密度估計、聚類、降維

模型選擇

模型評價:損失函式

模型選擇

複雜性 vs. 推廣性

二、統計推斷

統計推斷概述:利用資料來推斷產生資料的分布的過程

非引數推斷

bootstrap

引數推斷

假設檢驗

統計決策理論

推斷的基本問題:

點估計置信區間

假設檢驗

統計推斷方法

頻率推斷

貝葉斯推斷

統計函式估計

點估計區間估計/標準誤差

影響函式

bootstrap

bootstrap也可用於偏差、置信區間和分布估計等計算

重取樣技術(resampling)

bootstrap

刀切法(jackknife)

bootstrap簡介

bootstrap:利用計算機手段進行重取樣

一種基於資料的模擬(simulation)方法,用於統計推斷。基本思想是:利用樣本資料計算統計量和估計樣本分佈,而不對模型做任何假設(非引數bootstrap)

無需標準誤差的理論計算,因此不關心估計的數學形式有多複雜

bootstrap有兩種形式:非引數bootstrap和引數化的bootstrap,但基本思想都是模擬

重取樣

對原始資料進行有放回的隨機取樣,抽取的樣本數目同原始樣本數目一樣

三、統計學習:統計決策理論(更關心模型選擇)

用不同方法可能得到多個不同的估計,哪個估計更好一些?

統計決策理論:比較統計過程的形式化理論

損失函式:度量真值與估計之間的差異

風險函式:

決策規則:

貝葉斯估計:

最小最大規則:

mle為近似最小最大估計:

統計推斷基礎

內容參考自quora回答 假定有乙個隨機變數 y y 已知其分布。如果要獲得對該變數的乙個最合理估計值,應該取多少呢?如果記隨機變數 y role presentation y y的估計值為 t t 則隨機變數估計值的平方誤差期望值可以表示為 e y t 2 e y2 2yt t2 e y 2 2 ...

MATLAB概率統計

一 產生隨機變數 二項分布隨機資料產生 n1 10 10 60 a1 binornd n1,1.n1 b1 binornd n1,1.n1,1,6 一行六列 c1 binornd n1 n1 1.n1 1.n1 2,6 兩行六列 正態分佈隨機資料產生 a2 normrnd 0,1,1,5 標準正態分...

223 概率統計

現象 特點概念 樣本空間s 樣本點w 複雜事件 隨機事件 分類事件間的關係 互斥事件 ab 差事件對立事件 積事件和事件 對立事件和互斥事件間關係 兩事件獨立性 定理一 事件a b獨立的充要條件 定理二推廣 計算時間的運算滿足的規律 事件的概率和頻率 概率性質 特殊的概率 定義性質 計算乘法公式 全...