R Note 統計基礎

離散：

random experiment : 隨機事件在相同條件下事先已知可能的結果

sample space: 樣本空間

sample point: 樣本點試驗的每乙個可能結果

連續隨機事件：樣本空間的子集

必然事件：

不可能事件：

對立事件：互相矛盾和為1

互斥事件：不可能同時發生無交集對立事件一定是互斥反之不一定

概率密度：表示概率的分布

概率密度函式（概率密度曲線）：面積=概率

離散分布：兩點分布，二項分布，泊松分布

連續分布：均勻分布，指數分布，正太分布

兩點分布

二項分布（binamial）：兩點分布的延伸，比如扔硬幣，k次正面的概率

泊松分布（poisson）：二項分布的推廣，比如一定事件以內，**總機接到的**次數

均勻分布（uniform distribution）：

指數分布：

正太分布（normal distribution）：數學期望為μ、方差為σ^2的正態分佈，記為n(μ，σ^2)。其概率密度函式為正態分佈的期望值μ決定了其位置，其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分佈是標準正態分佈。

rnorm
(n, mean=o, sd=1)
runif
(n, min=0, max=1)

百分位數quantile()

中位數median()

fivenum()

多元資料，隨機變數不止乙個：

樣本方差：sxx

觀測方差：syy

協方差（covariance）：

sxy x與期望的差乘y與期望的差 seigema起來再除以n-1

觀察兩個變數之間的聯絡，分布是不是有一定的關聯性

相關性檢驗

cov(x$x1,x$x2)
cor(x$x1,x$x2)
cor.test()

函式關係和相關關係（非確定性關係）

一元線性回歸分析

找到回歸直線

原理：最小二乘法

每個樣本點和直線的垂直距離平方和最小

a =lm(y~1+x)

y~1+x 也可以y~x 都表示y=a+bx 有截距的lm

通過原點的lm可以表示為 y~x-1 或者y~x+0

z = data.frame(x=185)
predict(a,z)

1.提出願假設

2.建立檢驗統計量

3.根據自由度df=n-1，查t值表，找出規定的t理論值並進行比較。理論值差異的顯著水平為0.01級或0.05級。不同自由度的顯著水平理論值記為t(df)0.01和t(df)0.05

4.比較計算得到的t值和理論t值，推斷發生的概率，依據下表給出的t值與差異顯著性關係表作出判斷。

t值與差異顯著性關係表

t p值差異顯著程度

t>= t(df) 0.01 p<= 0.01 差異非常顯著

t>= t(df) 0.05 p<= 0.05 差異顯著

t < t(df) 0.05 p > 0.05 差異不顯著

5.根據是以上分析，結合具體情況，作出結論

比如80分為平均分，標準差為5分

假如抽乙個落在（80-5，80+5）區間外

否定域（拒絕域）：顯著性水平阿爾法0.05或者0.01 值以外的面積只佔5%

t檢驗法

t值 t服從自由度為n-1的t-分布

自由度：在統計模型中，自由度指樣本中可以自由變動的變數的個數，當有約束條件時，自由度減少自由度計算公式：自由度=樣本個數-樣本資料受約束條件的個數，即df = n - k（df自由度，n樣本個數，k約束條件個數）。一組資料，平均數一定，則這組資料有n-1個資料可以自由變化；如一組資料平均數一定，標準差也一定，則有n-2個資料可以自由變化。

p值（p value）p值為結果可信程度的乙個遞減指標，p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成的。總之就是碰巧出現的可能性為0.05，可以拒絕無效假設，說明兩者差別有顯著意義。

R Note 統計基礎

統計推斷基礎

ml 統計基礎

統計學統計學基礎

R Note 統計基礎

統計推斷基礎

ml 統計 基礎

統計學 統計學基礎

相關推薦

ml 統計基礎

統計學統計學基礎