h
ttp:
1、因變數為數值型別,轉化為分類型別
> cup98$target_d2 <- cut(cup98$target_d, right=f, breaks=
c(0, 0.1, 10, 15, 20, 25, 30, 50,max(cup98$target_d)))
breaks
也可以用
seq生成
breaks=seq(0, 100, by=5)
>table(cup98$target_d2)
[0,0.1)[0.1,10) [10,15) [15,20) [20,25) [25,30) [30,50) [50,200)
90569 1132 1378 806 745 435 233 110
2、檢查取樣的結果
檢查抽樣後的訓練集和測試集中的因變數,看其分布與原始資料中的分布時候一致,如果不一致,可是使用分層抽樣:
>round(prop.table(table(cup98$target_b)), digits=3)
0 1
0.949 0.051
>round(prop.table(table(traindata$target_b)), digits=3)
0 1
0.948 0.052
>round(prop.table(table(testdata$target_b)), digits=3)
0 1
0.95 0.05
資料預處理1 分類特徵編碼
背景 we don t talk anymore 很多時候,在我們拿到的資料集裡,特徵不都是連續的值,而是由某些離散化取值的資料組成。例如,性別特徵可以具有如下取值 male female 天氣特徵有如下取值 rainy sunny snowy 這樣的特徵是無法直接被模型識別的,因此需要將這些特徵轉...
R語言 資料預處理
資料預處理的常見做法 寫完 閒來無事,想寫寫部落格!這是我寫的第一篇文章,請多多支援!謝謝!data read.csv data.csv 讀入資料 dim data 看資料中有多少行,多少列 str data 看資料中變數型別 summary iris 數值型的變數給出最大,最小,中位數,均值,上下...
資料預處理系列 (五)分類變數處理
博主簡介 風雪夜歸子 英文名 allen 機器學習演算法攻城獅,喜愛鑽研machine learning的黑科技,對deep learning和artificial intelligence充滿興趣,經常關注kaggle資料探勘競賽平台,對資料 machine learning和artificial...