這裡主要介紹簡單隨機抽樣、分層抽樣、整群抽樣三種基本抽樣方法。
用到的軟體包及函式
軟體包函式
函式意義
base(無需載入,預設含有)
sample()
簡單隨機抽樣
stratr()
分層抽樣
cluster()
整群抽樣
實現簡單的三七原則分割資料集和驗證集
x: 帶抽取物件
size: 想要抽取的樣本數量
replace: 是否為有放回,預設為false,即無放回
prob: 設定個抽取樣本的抽樣概率,預設為無取值,即等概率抽樣
例子,以mass包中的insurance資料集為例:
實現無放回抽樣時,只需不對replace引數進行設定即可,此時size的取值不可以超過x的長度。
strata(data, stratanames=null, size, method=c("srswor","srswr","poisson","systematic"),pik,description=false)
data: 帶抽樣資料
stratanames: 進行分層所依據的變數名稱
size: 各層中要抽出的觀測樣本數
method: 選擇4中抽樣方法,分別為無放回、有放回、泊松、系統抽樣,預設為srswor
pik: 設定各層中樣本的抽樣概率
description: 選擇是否輸出含有各層基本資訊的結果
令description = t, 會給出共有多少層,每層中帶抽樣本總數及實際抽採樣本數。
clustername: 用來劃分群的變數名稱
size:需要抽取的群數
抽中了district = 2,4的兩個整群(下圖只顯示了一部分)
x為輸入變數,y為輸出變數。利用訓練集中的x,y建立模型。
將測試集中的x帶入模型,來**測試集目標輸出變數y的值,設為y』,將訓練集的x帶入模型,來**訓練集目標輸出變數y的值,設為y』』。那麼y』』與y的誤差評價了模型的擬合程度,即自己對自己的契合程度;而y』與y的誤差則評價了模型的推廣程度,即與別人的契合程度。當我們說乙個模型相對較好時,往往指該模型的擬合程度和推廣程度綜合最優。
一般控制訓練集與測試集之比為3:1:
R實現資料抽樣
訓練集與測試集x為輸入變數,y為輸出變數。利用訓練集中的x,y建立模型。將測試集中的x帶入模型,來 測試集目標輸出變數y的值,設為y 將訓練集的x帶入模型,來 訓練集目標輸出變數y的值,設為y 那麼y 與y的誤差評價了模型的擬合程度,即自己對自己的契合程度 而y 與y的誤差則評價了模型的推廣程度,即...
R語言 PPS抽樣
今天有朋友諮詢我怎麼寫pps抽樣的 試著找了下,找到乙個實現pps抽樣的r包。pps 抽樣是指按概率比例抽樣,屬於概率抽樣中的一種。是指在多階段抽樣中,尤其是二階段抽樣中,初級抽樣單位被抽中的機率取決於其初級抽樣單位的規模大小,初級抽樣單位規模越大,被抽中的機會就越大,初級抽樣單位規模越小,被抽中的...
R語言抽樣的問題
sample x,size,replace f t x是資料集,size規定了從物件中抽出多少個數 replace 為f時候,表示每次 抽取後的數就不能在下一次被抽取 t表示抽取過的數可以繼續拿來被抽取。以某兩類資料為目標做抽樣,其中一類樣本數量特別小,一類樣本數特別大,這就是不平衡的情況。對應處理...