R語言抽樣的問題

2022-08-22 14:24:13 字數 640 閱讀 7785

sample(x,size,replace=f/t)

x是資料集,

size規定了從物件中抽出多少個數

replace 為f時候,表示每次​抽取後的數就不能在下一次被抽取;t表示抽取過的數可以繼續拿來被抽取。

以某兩類資料為目標做抽樣,其中一類樣本數量特別小,一類樣本數特別大,這就是不平衡的情況。對應處理方式是做欠抽樣處理,按照樣本量小的類的數量,從大類中抽取樣本。

以kaggle的信用卡欺詐案例為例,該專案欺詐的樣本為492個,非欺詐樣本284807個,對應處理方式為:

# 設定分層抽樣

set.seed(1234

)index

<-sample(x=1:nrow(card_data2),size = nrow(card_data1),replace =t)

# 非欺詐類對應的平衡後資料集為

card_data3

<-card_data2[index,]

# head(card_data3)

# 合併欺詐樣本和非欺詐樣本,得到新資料集

new_card

<-rbind(card_data1,card_data3)

# 其中card_data2為非欺詐樣本集,card_data1為欺詐樣本集

R語言 PPS抽樣

今天有朋友諮詢我怎麼寫pps抽樣的 試著找了下,找到乙個實現pps抽樣的r包。pps 抽樣是指按概率比例抽樣,屬於概率抽樣中的一種。是指在多階段抽樣中,尤其是二階段抽樣中,初級抽樣單位被抽中的機率取決於其初級抽樣單位的規模大小,初級抽樣單位規模越大,被抽中的機會就越大,初級抽樣單位規模越小,被抽中的...

R語言 資料抽樣的實現

這裡主要介紹簡單隨機抽樣 分層抽樣 整群抽樣三種基本抽樣方法。用到的軟體包及函式 軟體包函式 函式意義 base 無需載入,預設含有 sample 簡單隨機抽樣 stratr 分層抽樣 cluster 整群抽樣 實現簡單的三七原則分割資料集和驗證集 x 帶抽取物件 size 想要抽取的樣本數量 re...

R隨機抽樣

x為總體向量 n為樣本容量 replace f表示無放回抽樣 replace t表示放回抽樣 prob可以設定不等概率抽樣 sample x,n,replace f,prob null 用r模擬擲硬幣 h表示正面 t表示反面 有放回抽樣 sample c h t 10,replace t 1 h t...