對較大的原始csv檔案抽取出一部分樣本

2022-05-08 23:03:10 字數 1069 閱讀 4344

避免對大檔案全部讀取到記憶體中,浪費時間,也能避免記憶體溢位;

先對檔案先進行抽樣,抽出很小一部分,測試程式的語法正確性,再用全部檔案測試程式的功能正確性;

import

tensorflow as tf

import

numpy as np

import

pandas as pd

import

matplotlib.pyplot as plt

import

csv# 原始csv檔案包含222個類,每個類500個樣本,連續排列

num_sample = 10;

with open("data/clean_data/normalized_training.csv", "rb") as fi:

with open("data/clean_data/normalized_training_part.csv",'wb') as fo:

fo.write(fi.readline()) # 讀取csv檔案column name行,也就是第一行

for i in range(222):

for j in range(num_sample):

fo.write(fi.readline())

for j in range(500-num_sample):

fi.readline();

num_sample = 10;with open("data/clean_data/normalized_training.csv", "rb") as fi:    with open("data/clean_data/normalized_training_part.csv",'wb') as fo:        fo.write(fi.readline())        for i in range(222):            for j in range(num_sample):                fo.write(fi.readline())            for j in range(500-num_sample):                fi.readline();

python 獲取較大 csv檔案的行數

所謂較大.csv檔案,就是直接用pd.read csv讀取,會出現memoryerror.這時需要把檔案變成迭代器,分段讀取.user info pd.read csv e data analysis graduation design data weibo users.csv iterator t...

隨機抽取一定比例的fastq檔案

在ngs的下機資料中,我們通常抽取一定比例的fq檔案做分析。在此,筆者提供兩種方式來抽取fq資料。第一種方法速度較快,但存在一定的隨機誤差。執行方式 perl 0 fq檔案抽取比例 usr bin perl w use strict die usage perl 0 n unless argv 2 ...

一種好用的檔案格式 csv檔案

在電子技術中,經常涉及到大量的資料處理工作。將採集到的資料匯入 excel 檔案,可以很方便地利用 excel 中封裝的大量公式函式完成進一步的資料計算處理工作。因此在自動化測試技術中,通常將採集到的資料存入 excel xls 檔案中。然而在使用 vc 對excel 檔案進行操作時,涉及到對 co...