《資料科學 R語言實現》 3 7 捨棄資料

2021-09-23 13:41:36 字數 754 閱讀 3021

在之前的教程中,我們介紹了如何修改和過濾資料集。這些步驟基本上涵蓋了資料預處理和資料準備的主要過程。但是,我們還想找出資料集中的壞資料。那些壞資料或者不想要的資料應該丟棄,避免生成誤導的結果。這裡,我們會介紹一些移除無用資料的實用方法。

按照3.3節「轉換資料型別」教程,把匯入資料的每個屬性轉換成合適的資料型別。同時按照3.2節「重新命名資料變數」中的步驟,命名employees和salaries資料集的列名。

執行下列步驟,捨棄當前資料集的乙個屬性。

1.首先,你可以在過濾條件中排除last_name,捨棄該列:

2.或者,你可以給捨棄的屬性分配null值:

3.要捨棄行,你可以通過反向索引,指定希望捨棄的行:

捨棄行資料的想法與資料過濾很類似,你只需要在過濾階段給出要捨棄行的反向索引,然後可以使用過濾後的資料替換原來的資料。由於last_name列是第5個索引,你可以在方括號中的逗號右邊給定-5來移除這個屬性。除了重新賦予非空值,你也可以給要捨棄的屬性指定null值。要移除行,你可以在方括號的逗號左邊放置反向索引,然後用過濾的資料子集替換原來的資料集。

除了使用資料過濾或給具體屬性指定null值,你也可以使用函式within移除不需要的屬性。所需的操作只是在函式rm中放置不需要的屬性名稱:

《資料科學 R語言實現》 3 8 合併資料

資料合併讓我們理解不同資料來源是如何相互關聯的。r中的merge操作與資料庫中的join操作類似,它使用兩個資料集中相同的值來連線兩個資料集。按照3.3節 轉換資料型別 教程,把匯入資料的每個屬性轉換成合適的資料型別。同時按照3.2節 重新命名資料變數 中的步驟,命名employees和salari...

《資料科學 R語言實現》 1 2 建立R函式

r語言是函式的集合 使用者可以在專案中使用各個程式包中的內建函式,或者為專門的目的定義新的函式。在本教程中,我們會展示如何建立乙個r函式。執行下列步驟來建立你的第乙個r函式。1.在r控制台中鍵入下列 建立第乙個函式 2.使用下列命令,執行使用者定義的函式addnum 或者,你也可以不使用return...

《資料科學 R語言實現》 1 4 理解環境

除了函式名 函式體和形參,環境也是函式的另乙個基本組成部分。簡單地說,環境是r管理和儲存各種型別變數的地方。除了全域性環境外,每乙個函式會在建立之初啟用自己的環境。在本教程中,我們會展示每乙個函式的環境是如何工作的。確保你已經在作業系統中安裝了r語言,完成了之前的步驟。執行下列步驟來使用環境。1.你...