R資料的處理函式整理

2021-08-20 14:07:48 字數 3367 閱讀 2083



getwd()

setwd()

dir()

,顯示隱藏檔案:

dir(all.files=true)

list.files(),

file.choose()

:選擇需要載入的檔案,需注意檔案格式,否則會報錯。不能在

linux

上使用讀入csv

的格式如下:

data8 = scan(file.choose(),what='char',sep=',')

read.csv()

:搜尋乙個

csv檔案,並將其包含的資料讀入r。

file

引數需要給出絕對路徑。例:

read.csv(file,sep = 『,』, header = true,row.names)

read.csv(file,sep = 』,』, header = true,row.names = f)

read.table(file.choose())

:read.csv

是read.table

的特例格式:read.table(file,header = false, sep=」」)

file

:代表檔案路徑的字串,可以是絕對路徑或相對路徑,絕對路徑要把碟符帶上

header

:header

為true時,r

會將檔案第一行作為資料框的變數名

sep:

separation

的簡稱,表示檔案中的分隔符,預設是空格

read.xls()

:在readxl

包中,讀取

xls檔案,需要安裝

perl

環境read_xls(path, sheet = null, range = null,col_names = true,

col_types = null, na = "", trim_ws = true, skip = 0, n_max =inf,

guess_max = min(1000, n_max))

資料庫連線:

odbcconnect(dsn,uid=」」,pwd=」」)

dsn:

odbc

中要操作的資料庫名字,使用者需要將使用的資料庫新增到

odbc

中uid

:資料庫使用者名稱

pwd:該使用者的密碼

write.table():

x:輸出的資料;

file

:輸出的資料檔案路徑

:有同名檔案時是覆蓋還是新增在其後面;

sep:用於規定檔案的分隔符,預設是空格;

row.names

和col.names

乙個邏輯值為

true

隨變數輸出,預設

true

write.csv():

建立乙個

csv檔案

writeclipboard()

:匯出資料到剪貼簿以便黏貼到其它應用

writeclipboard(name(iris)

:匯出內建資料集

iris

中的名稱

另一寫法:write.table(head(iris),file=』clipboard」,sep=」\t」,row.name=false)

edit()

:with()

within()

:與with

的區別是,返回修改後的資料

transform()

:返回修改後的變數,賦值需要使用

「=」names()

:對任意型別的物件進行命名,包括向量、矩陣、陣列等。

dimnames()

:對矩陣或陣列的維度進行命名

rownames()

及colnames()

:對行和列進行命名。

subset()

:提取變數的一部分。

格式:subset(x,subset,select) 

x:要操作的物件;

subset

:乙個邏輯表示式,

r根據該邏輯表示式來判斷要提取的元素;

select

:指定要提取的列,適用於矩陣或資料框。

is.na()

:判斷乙個資料是否為缺失值

na.omit()

:將變數中所有的缺失值刪除,並返回所有的非缺失值。一般用於處理資料框

rbind()

:將兩個矩陣或資料框按照行來拼接

cbind()

:將兩個函式或矩陣按照列來拼接

merge()

:用於橫向合併兩個資料框,通過共有變數連線,若某個資料框中的一條記錄在該變數的取值在另乙個資料框中不存在,該記錄就無法找到連線的物件,因此會被刪掉。

格式:merge(x,y,by=… , by.x … ,by.y)x和

y:要合併的物件

by:指明兩個資料框共有的變數

by.x

和by.y

:指明兩個資料框裡含有相同資訊但名稱不同的兩個變數。

列聯表:(contingency table

) 處理屬性資料時最常用的工具

table()

:引數為單個向量時,返回該向量的頻數分布;傳入引數為兩個向量時,返回結果就是常見的列聯表。

prop.talbe()

:將table()

生成的列聯表中的資料,由頻數換成頻率

ftable()

:生成標準格式的多維列聯表。

格式:ftable(…,row.vars=null,col.vars=null)

resnape2

包:melt()

:將資料打散

melt(data

,id.vars

,measure.vars

,variable.name=

「variable」

,value.name=」value」)

id.vars

:乙個向量,其元素為資料框中的乙個或多個變數。這些變數用於唯一標記一條記錄。

melt

會根據id.vars

指定的變數將資料打散。

cast()

:將打散後的資料按照一定的格式重新組合起來

dcast(data,formula,fun.aggregate = null)

data

:為乙個

melt()

函式返回的結果

formula

:重新組合的方式,形式為

y~x,

y規定了資料重組所依據的變數,而

x則規定了重組後每條記錄所擁有的變數

fun.aggregate

:用於指定組合時對資料適用的函式。

R語言 資料處理的常用函式

在r語言中,有許多可應用於數值計算和統計分析的數值函式,主要可以分成數學函式,統計函式和概率函式三大類。函式 描述abs x 絕對值sqrt x 平方根ceiling x 不小於x的最小整數 floor x 不大於x的最大整數 trunc x 向0的方向擷取x中的整數部分 round x,digit...

R 資料處理

setwd e rwork set.seed 1234 index sample 1 nrow iris 10,replace t index sample set iris index,index sample nrow iris 0.75 nrow iris sample set iris in...

R語言字元處理函式

字元處理函式用於處理文字型資料。函式描述 nchar x 計算x中字元數量 substr x,start,stop 提取或替換乙個字元向量中的子串 grep pattern,x,ignore.case true,fixed 在x中搜尋某種模式。fixed false,pattern為正規表示式。fi...