離散:
random experiment : 隨機事件 在相同條件下 事先已知可能的結果
sample space: 樣本空間
sample point: 樣本點 試驗的每乙個可能結果
連續隨機事件:樣本空間的子集
必然事件:
不可能事件:
對立事件:互相矛盾 和為1
互斥事件:不可能同時發生 無交集 對立事件一定是互斥 反之不一定
概率密度:表示概率的分布
概率密度函式(概率密度曲線): 面積=概率
離散分布:兩點分布,二項分布,泊松分布
連續分布:均勻分布,指數分布,正太分布
兩點分布
二項分布(binamial):兩點分布的延伸,比如扔硬幣,k次正面的概率
泊松分布(poisson):二項分布的推廣,比如一定事件以內,**總機接到的**次數
均勻分布(uniform distribution):
指數分布:
正太分布(normal distribution):數學期望為μ、方差為σ^2的正態分佈,記為n(μ,σ^2)。其概率密度函式為正態分佈的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分佈是標準正態分佈。
rnorm
(n, mean=o, sd=1)
runif
(n, min=0, max=1)
百分位數quantile()
中位數median()
fivenum()
多元資料,隨機變數不止乙個:
樣本方差:sxx
觀測方差:syy
協方差(covariance):
sxy x與期望的差乘y與期望的差 seigema起來 再除以n-1
觀察兩個變數之間的聯絡,分布是不是有一定的關聯性
相關性檢驗
cov(x$x1,x$x2)
cor(x$x1,x$x2)
cor.test()
函式關係和相關關係(非確定性關係)
一元線性回歸分析
找到回歸直線
原理:最小二乘法
每個樣本點和直線的垂直距離 平方和最小
a =lm(y~1+x)
y~1+x 也可以y~x 都表示y=a+bx 有截距的lm
通過原點的lm可以表示為 y~x-1 或者y~x+0
z = data.frame(x=185)
predict(a,z)
1.提出願假設
2.建立檢驗統計量
3.根據自由度df=n-1,查t值表,找出規定的t理論值並進行比較。理論值差異的顯著水平為0.01級或0.05級。不同自由度的顯著水平理論值記為t(df)0.01和t(df)0.05
4.比較計算得到的t值和理論t值,推斷發生的概率,依據下表給出的t值與差異顯著性關係表作出判斷。
t值與差異顯著性關係表
t p值 差異 顯著程度
t>= t(df) 0.01 p<= 0.01 差異非常顯著
t>= t(df) 0.05 p<= 0.05 差異顯著
t < t(df) 0.05 p > 0.05 差異不顯著
5.根據是以上分析,結合具體情況,作出結論
比如80分為平均分,標準差為5分
假如抽乙個 落在(80-5,80+5)區間外
否定域(拒絕域):顯著性水平阿爾法0.05或者0.01 值以外的面積只佔5%
t檢驗法
t值 t服從自由度為n-1的t-分布
自由度:在統計模型中,自由度指樣本中可以自由變動的變數的個數,當有約束條件時,自由度減少自由度計算公式:自由度=樣本個數-樣本資料受約束條件的個數,即df = n - k(df自由度,n樣本個數,k約束條件個數)。一組資料,平均數一定,則這組資料有n-1個資料可以自由變化;如一組資料平均數一定,標準差也一定,則有n-2個資料可以自由變化。
p值(p value)p值為結果可信程度的乙個遞減指標,p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成的。 總之就是碰巧出現的可能性為0.05,可以拒絕無效假設,說明兩者差別有顯著意義。
統計推斷基礎
內容參考自quora回答 假定有乙個隨機變數 y y 已知其分布。如果要獲得對該變數的乙個最合理估計值,應該取多少呢?如果記隨機變數 y role presentation y y的估計值為 t t 則隨機變數估計值的平方誤差期望值可以表示為 e y t 2 e y2 2yt t2 e y 2 2 ...
ml 統計 基礎
roc曲線理解 好文 precison 查準率 為正例的樣本中真正正例的比例。recall 召回率 真正為正例的樣本有多少被 出來。正確率 正負例都對的比例。優勢 正負樣本的分布變化時 即比例大改變 roc曲線能夠保持不變。在上圖中,a和c為roc曲線,b和d為precison和recall曲線。a...
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...