R Note 統計基礎

2021-08-09 05:07:59 字數 2142 閱讀 7203

離散:

random experiment : 隨機事件 在相同條件下 事先已知可能的結果

sample space: 樣本空間

sample point: 樣本點 試驗的每乙個可能結果

連續隨機事件:樣本空間的子集

必然事件:

不可能事件:

對立事件:互相矛盾 和為1

互斥事件:不可能同時發生 無交集 對立事件一定是互斥 反之不一定

概率密度:表示概率的分布

概率密度函式(概率密度曲線): 面積=概率

離散分布:兩點分布,二項分布,泊松分布

連續分布:均勻分布,指數分布,正太分布

兩點分布

二項分布(binamial):兩點分布的延伸,比如扔硬幣,k次正面的概率

泊松分布(poisson):二項分布的推廣,比如一定事件以內,**總機接到的**次數

均勻分布(uniform distribution):

指數分布:

正太分布(normal distribution):數學期望為μ、方差為σ^2的正態分佈,記為n(μ,σ^2)。其概率密度函式為正態分佈的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分佈是標準正態分佈。

rnorm

(n, mean=o, sd=1)

runif

(n, min=0, max=1)

百分位數quantile()

中位數median()

fivenum()

多元資料,隨機變數不止乙個:

樣本方差:sxx

觀測方差:syy

協方差(covariance):

sxy x與期望的差乘y與期望的差 seigema起來 再除以n-1

觀察兩個變數之間的聯絡,分布是不是有一定的關聯性

相關性檢驗

cov(x$x1,x$x2)

cor(x$x1,x$x2)

cor.test()

函式關係和相關關係(非確定性關係)

一元線性回歸分析

找到回歸直線

原理:最小二乘法

每個樣本點和直線的垂直距離 平方和最小

a =lm(y~1+x)
y~1+x 也可以y~x 都表示y=a+bx 有截距的lm

通過原點的lm可以表示為 y~x-1 或者y~x+0

z = data.frame(x=185)

predict(a,z)

1.提出願假設

2.建立檢驗統計量

3.根據自由度df=n-1,查t值表,找出規定的t理論值並進行比較。理論值差異的顯著水平為0.01級或0.05級。不同自由度的顯著水平理論值記為t(df)0.01和t(df)0.05

4.比較計算得到的t值和理論t值,推斷發生的概率,依據下表給出的t值與差異顯著性關係表作出判斷。

t值與差異顯著性關係表

t p值 差異 顯著程度

t>= t(df) 0.01 p<= 0.01 差異非常顯著

t>= t(df) 0.05 p<= 0.05 差異顯著

t < t(df) 0.05 p > 0.05 差異不顯著

5.根據是以上分析,結合具體情況,作出結論

比如80分為平均分,標準差為5分

假如抽乙個 落在(80-5,80+5)區間外

否定域(拒絕域):顯著性水平阿爾法0.05或者0.01 值以外的面積只佔5%

t檢驗法

t值 t服從自由度為n-1的t-分布

自由度:在統計模型中,自由度指樣本中可以自由變動的變數的個數,當有約束條件時,自由度減少自由度計算公式:自由度=樣本個數-樣本資料受約束條件的個數,即df = n - k(df自由度,n樣本個數,k約束條件個數)。一組資料,平均數一定,則這組資料有n-1個資料可以自由變化;如一組資料平均數一定,標準差也一定,則有n-2個資料可以自由變化。

p值(p value)p值為結果可信程度的乙個遞減指標,p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成的。 總之就是碰巧出現的可能性為0.05,可以拒絕無效假設,說明兩者差別有顯著意義。

統計推斷基礎

內容參考自quora回答 假定有乙個隨機變數 y y 已知其分布。如果要獲得對該變數的乙個最合理估計值,應該取多少呢?如果記隨機變數 y role presentation y y的估計值為 t t 則隨機變數估計值的平方誤差期望值可以表示為 e y t 2 e y2 2yt t2 e y 2 2 ...

ml 統計 基礎

roc曲線理解 好文 precison 查準率 為正例的樣本中真正正例的比例。recall 召回率 真正為正例的樣本有多少被 出來。正確率 正負例都對的比例。優勢 正負樣本的分布變化時 即比例大改變 roc曲線能夠保持不變。在上圖中,a和c為roc曲線,b和d為precison和recall曲線。a...

統計學 統計學基礎

五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...