總體 population:包含所研究的全部個體(資料)的集合
樣本 sample:研究中實際觀測或調查的一部分個體
選擇性偏差 selection bias
在研究過程中因樣本選擇的非隨機性而導致得到的結論存在偏差,屬於系統誤差。
eg.在一項身高研究中,選擇籃球運動員作為樣本。
測量偏差 measurement bias
屬於系統誤差
eg.在人體體溫研究中,耳內體溫始終高於口腔體溫。
**響應偏差 response bias **
當對調查的回應率很低時,就可能出現回應偏差。這是因為回應調查的人往往與不回應的人有不同的特點或態度。
**混淆 confounding **
混淆器是一種變數,它扭曲(增加或減少)乙個變數(決定因素)對另乙個變數(結果)的明顯影響
觀察性實驗 observational study
研究者不進行任何處理,觀察性實驗可以得出兩者之間的聯絡
實驗性研究 experimental study
通過某種處理來對試驗者進行控制
控制自變數,改變因變數了,可以得出因果關係
數值型變數 numerical data
離散型 discrete eg.年份
連續型 continuous eg.年齡
類別型變數 categorial data
序數變數 ordinal eg.撞擊種類
名義變數 nominal eg.性別
對稱資料,平均數=中位數;
左偏,平均數《中位數;
右偏,平均數》中位數
下限 lt = q1- 1.5iqr;
上限 ut = q3 + 1.5iqr;
四分位範圍 iqr = q3 -q1.
指令描述
dim(data)
資料集的維度(行/列)
str(data)
變數的儲存形式
head(data,3)
資料的首三行
summary(data)
數值摘要
mean(x)
平均值median()
中位數var(data)
方差sd(data)
標準差fivenum(data)
四分位法(min,q1,q2,q3,max)
fivenum(x)[4]-fivenum(x)[2]
iqrquantile(x,probs)
百分位數
plot(x,y,col = group)
分組畫散點圖
分組計算
boxplot(x~group)
分組畫箱型圖
length
數量skewness(x)
偏態
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學習筆記一 統計學習三要素
統計學習的三要素為 模型 策略 演算法。一 模型 1 在監督學習當中,我們的目的是學習乙個由輸入到輸出的對映,這個對映就是模型。一般來說,模型有兩種形式,一種是概率模型 條件概率分布p y x 另一種形式是非概率模型 決策函式y f x 2 假設空間是一集合 由輸入空間到輸出空間所有對映的集合。即 ...
統計學基礎 三
分類資料 眾數 出現最多的變數值,峰值 順序資料 中位數 位置在中間的變數值 位置 分位數 上四分位位置 假設目前有9個資料,則下四分位 9 4 2.25,資料位於第二位和第三位資料的25 的位置。假設目前有9個資料,則上四分位 3 9 4 6.75,資料位於第六位和第七位資料的75 位置。數值型資...