實驗設計的核心目的之一是盡力排除非處理因素的干擾和影響,從而準確地獲得處理因素的實驗效應。然而在實際工作中,某些因素在實驗階段難以控制,如欲瞭解接受不同處理的小白鼠經過一段時間飼養後體重增加量是否有差別,已知體重的增加和小白鼠的進食量有關,接受不同處理的小白鼠進食量有可能不同,但又很難直接控制每只小白鼠的進食量,那麼我們在統計分析就可應用本節講述的協方差分析(analysis of covariance, ancova),通過統計模型的校正使得各組在進食量這個變數的影響上相等,即將進食量作為協變數,然後分析不同處理對小白鼠體重增加重的影響。由此可見,協方差分析就是針對在實驗設計階段難以控制其取值水平,或者無法嚴格控制的因素,在統計分析階段對其進行統計控制。
從理論上將,協方差分析(analysis of covariance, ancova)是將線性回歸與方差分析結合起來,檢驗兩組或多組修正均數間有無差別的一種統計分析方法,用於消除混雜因素對分析指標的影響。
協方差適用於單因素設計方差分析、隨機區組設計方差分析、拉丁方設計、析因設計等方差分析。只有乙個協變數叫做一元協方差,多個協變數叫多元協方差。協方差分析的應用應滿足以下條件:
(1)要求各組資料都來自正態總體(正態性),且各組的方差相等(方差齊性);
(2)各組的總體回歸係數β相等,且都不等於0,即平行性檢驗。
示例:將60名糖尿病病人隨機分為3組,分別給予常規藥、新藥甲、新藥乙進行降血糖質量,比較3組**後的血糖值。
1. 資料錄入:
2. 資料前提檢驗
(1)回歸關係檢驗—通過散點圖實現
由上圖可看出,散點圖具有明顯的線性趨勢,滿足直線回歸關係的假定
(2)平行性檢驗(分組因素與協變數互動作用)
因變數:**後
固定因子:分組
協變數:**前
模型:
a. 指定模型:構建項
b. 構建項:互動
c. 模型:分組、**前、分組***前
d. 平方和:型別3
--p=0.000<0.05,說明模型有統計學意義
--分組***前的p=0.159 >0.05,認為研究因素與協變數不存在互動作用。也說明了組間斜率是沒有差別的,滿足了回歸齊性的假定。
3. 協方差分析簡要
(1) 開啟分析—一般線性模型—單變數
(2) 引數選擇
4. 資料結果與說明
(1) 描述性說明:下表給出了樣本個數和各組的平均值、平均差等。
(2) 方差齊性檢驗
(3) 主體效應間比較:如下圖所示
(4) 修正後的均值
(5) 各組兩兩比較
(6) 單變數方差檢驗
5. 語法
************* 散點圖 **************.graph /scatterplot(bivar)=**前 with **後 by 分組 /missing=listwise.************* 平行性檢驗 **************.unianova **後 by 分組 with **前 /method=sstype(3) /intercept=include /criteria=alpha(0.05) /design=分組 **前 分組***前.************* 協方差分析 **************.unianova **後 by 分組 with **前 /method=sstype(3) /intercept=include /emmeans=tables(分組) with(**前=mean) compare adj(lsd) /print descriptive homogeneity /criteria=alpha(.05) /design=**前 分組.
6. 注意事項 離散變數和連續變數
離散變數是指其數值只能用自然數或整數單位計算的則為離散變數.例如,企業個數,職工人數,裝置台數等,只能按計量單位數計數,這種變數的數值一般用計數方法取得.反之,在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生產零件的規格尺寸,人體測量...
連續變數離散化的原因
資料離散化是指將連續的資料進行分段,使其變為一段段離散化的區間。分段的原則有基於等距離 等頻率或優化的方法。資料離散化的原因主要有以下幾點 比如決策樹 樸素貝葉斯等演算法,都是基於離散型的資料展開的。如果要使用該類演算法,必須將離散型的資料進行。有效的離散化能減小演算法的時間和空間開銷,提高系統對樣...
資料準備 降低基數,連續變數分段
資料準備非常重要 1.從不同的渠道收集資料 2.清理資料中意外錯誤或被認為是極端值的取值 3.生成衍生的變數 feature 在資料處理過程,需要進行的操作 1 將相同含義的變數合併 2 出現頻率下的類別被合併為乙個新的類別,並給予乙個合理的標識,如other。3 合併變數的類別使得某些 力指標最大...