R基礎如何讀取大檔案的部分內容

同理心

樣本大概是10,5,35個, 考慮到人類的基因大概有2w多個，那麼這就是乙個10000 x 20000的大樣本資料，鑑於這還是乙個tpm，資料型別是浮點型，檔案解壓縮之後就是4.61g, 如果全部載入到r語言中，大部分的電腦估計都受不了

library(pryr)
test 
object_size(test)
# 5.11 gb

考慮到並非所有資料都是我們所需要的，是否可以只讀取部分的資料呢？原作者的解決方案是通過r呼叫命令列的方式，提取部分資料，然後讓r語言進行載入。

system命令

可是大部分人的作業系統都是windows，所有執行的時候就會報錯，能不能就使用者r語言解決這個問題呢？當然可以，只要你認真讀過read.table的那麼多引數，你就會知道他的那麼多引數並不是裝飾用的。

讓我們先學習乙個簡單的引數nrows, 他的作用就是讀取前n行，知道它之後，那就不需要去呼叫head了

headtcga 
sep = "\t",
stringsasfactors = false,
nrow = 1)

效果就是讀取第一行，構建乙個資料框，然後將其轉成向量。但既然目標是向量，其實還有另一種實現方案，readlines讀取的就是乙個字串，然後將其分隔成向量即可。

headtcga headtcga

讀取指定列會稍微困難一些，因為colclasses不太好理解。r語言在用read.table讀取資料的時候其實做了很多事情，有一件事情就是負責確認每一列的資料型別，r語言需要根據不同資料型別進行記憶體分配。

如果你想實現讀取指定列，那麼你就得自己去設定每一列的資料型別。如果哪些列不需要，就將其它的資料型別定義為null，r語言就會忽略它。

讀取**如下：

cat(paste0("begin at ", sys.time(),"\n"))
first_5_rows 
stringsasfactors = false, 
header = false,
skip = 1,
check.names = false)
# targetnum 你需要讀取的列
classes[-targetnum] 
classes[1] 
# 讀取檔案(跳過第一行)
targetcancertpm 
sep= "\t", 
skip = 1,
colclasses = classes)
colnames(targetcancertpm) 
targetcancertpm[1:3, 1:3]
cat(paste0("end at ", sys.time(),"\n"))

如果僅讀取我們需要的列的話，最終只消耗了500m的記憶體，相對於之前的5g記憶體，減少了將近10倍。

這就是需要對檔案進行逐行讀取解析了，我用readlines造了乙個輪子，函式名為read_part,目前能用的引數為

# 函式目標:
# 讀取檔案中的指定行和指定列
# 不包括注釋行
read_part 
stringsasfactors = false,
header = false,
check.names = false, 
comment.char = "#", ...) else
i j 
repeat else
#print(select_cols)
dfl[[j]] 
j }  close(con) 
df return(df)
}

R基礎如何讀取大檔案的部分內容

獲取遠端大檔案部分內容的方法

讀取csv檔案裡面部分內容（email，name）

C語言修改檔案某部分內容

R基礎 如何讀取大檔案的部分內容

獲取遠端大檔案部分內容的方法

讀取csv檔案裡面部分內容（email，name）

C語言修改檔案某部分內容

相關推薦

R基礎如何讀取大檔案的部分內容