最近做乙個**關於投資者是否再次投資的專案,需要針對客戶匯出的資料進行清洗後建模分析,我目前選擇的模型是xgboost,貌似資料必須全是numeric。
資料結構如下:
在這個裡面,我們需要做的是將第一列裡面的『是』替換為1,第四列、第七列、第八列的字元也替換為數字。
具體需求如下:
平台標籤替換:0、na;1、pc;2、wap;3、ios;4、andriod;
產品標籤替換:0、na;1、新手專享;2、直投散標;3、定期寶;4、雙手計畫;5、新手標。
首先我們讀取資料,**如下:
hnjb
然後我們將資料轉為字元型,方便替換
準備完畢,開始替換
hnjb[is.na(hnjb)]
hnjb[hnjb=='是']
hnjb[hnjb=='pc']
hnjb[hnjb=="wap"]
hnjb[hnjb=='ios']
hnjb[hnjb=='android']
hnjb[hnjb=='新手專享']
hnjb[hnjb=='直投散標']
hnjb[hnjb=='定期寶']
hnjb[hnjb=='雙收計畫']
hnjb[hnjb=='新手標']
結果如下:
好了,字元替換大功告成!
R語言擴充套件包dplyr 資料清洗和整理
getting and cleaning data 也可以載入swirl包,載入課getting and cleaning data跟著學習。如下 library swirl install from swirl getting and cleaning data swirl 此文主要是參考r自帶的...
R語言擴充套件包dplyr 資料清洗和整理
getting and cleaning data 也可以載入swirl包,載入課getting and cleaning data跟著學習。如下 library swirl install from swirl getting and cleaning data swirl 此文主要是參考r自帶的...
R語言 資料變形問題
之前實習的時候偶然間被詢問了乙個資料結構變形的問題,但是是在excel裡,所以不太會,最近學r,發現r解決起來還挺方便,整理了一下放在這裡,以便日後需要再來查閱。要如何把它變成這種結構 a1b1 c1d1 a對應sum gmv 對應sum gmv 對應sum gmv 對應sum gmv b對應sum...