《資料科學 R語言實現》 2 4 掃瞄文字檔案

2021-09-23 15:00:37 字數 983 閱讀 7663

在之前的教程中,我們介紹了如何使用read.table和read.csv載入資料到r程序中。然而,read.table和read.csv只適用於列數固定,資料不多的情形。為了在資料處理過程中更加靈活,我們會介紹如何使用函式scan從檔案中讀取資料。

執行下列步驟,掃瞄csv檔案中的資料。

1.首先,你可以使用函式scan讀取snp500.csv中的資料:

2.然後使用mode和str檢視載入的資料:

與read.table和read.csv相比,函式scan更加靈活,資料讀取也更加高效。這裡,我們在what引數中,以列表的形式指定欄位名和每個欄位的支援型別。在這個例子中,第1個字段是字元型別,其他欄位都是數值型別。因此,我們可以給date列設定兩個單(或雙)引號,給其他列設定為0。然後,因為我們需要忽略列名行,並自動給字段數少於列數的任何一行新增空欄位,我們可以設定skip為1,fill為true。

現在,我們可以使用內建的函式檢視資料。這裡,我們使用mode獲取物件的型別,使用str展示資料的結構。

某些情況下,資料是通過固定寬度分隔,而不是通過固定分隔符分隔的。為了指定每一列的寬度,你可以使用函式read.fwf。

2.然後,使用檔案編輯器檢視資料,如圖5所示。

3.通過在widths中指定每列的寬度,在col.names中指定列名,設定skip為1跳過第一行,讀取資料:

4.最後,你可以使用函式head和names檢視資料:

《資料科學 R語言實現》 1 2 建立R函式

r語言是函式的集合 使用者可以在專案中使用各個程式包中的內建函式,或者為專門的目的定義新的函式。在本教程中,我們會展示如何建立乙個r函式。執行下列步驟來建立你的第乙個r函式。1.在r控制台中鍵入下列 建立第乙個函式 2.使用下列命令,執行使用者定義的函式addnum 或者,你也可以不使用return...

《資料科學 R語言實現》 3 7 捨棄資料

在之前的教程中,我們介紹了如何修改和過濾資料集。這些步驟基本上涵蓋了資料預處理和資料準備的主要過程。但是,我們還想找出資料集中的壞資料。那些壞資料或者不想要的資料應該丟棄,避免生成誤導的結果。這裡,我們會介紹一些移除無用資料的實用方法。按照3.3節 轉換資料型別 教程,把匯入資料的每個屬性轉換成合適...

《資料科學 R語言實現》 3 8 合併資料

資料合併讓我們理解不同資料來源是如何相互關聯的。r中的merge操作與資料庫中的join操作類似,它使用兩個資料集中相同的值來連線兩個資料集。按照3.3節 轉換資料型別 教程,把匯入資料的每個屬性轉換成合適的資料型別。同時按照3.2節 重新命名資料變數 中的步驟,命名employees和salari...