Python如何讀取 寫入CSV資料

2022-10-03 09:21:11 字數 3862 閱讀 8656

問題

你想讀寫乙個csv格式的檔案。

解決方案

對於大多數的csv格式的資料讀寫問題,都可以使用 csv 庫。、例如,假設你在乙個名叫stocks.csv檔案中有一些**市場資料,就像這樣:

下面向你展示如何將這些資料讀取為乙個元組的序列:

import csv

with open('stocks.csv') as f:

f_csv = 程式設計客棧csv.reader(f)

headers = next(f_csv)

for row in f_csv:

# process row

...在上面的**中,row會是乙個元組。因此,為了訪問某個字段,你需要使用下標,如row[0]訪問symbol,row[4]訪問change。

由於這種下標訪問通常會引起混淆,你可以考慮使用命名元組。例如:

from collections import namedtuple

with open('stock.csv') as f:

f_csv = csv.reader(f)

headings = next(f_csv)

row = namedtuple('row', headings)

for r in f_csv:

row = row(*r)

# process row

...它允許你使用列名如 row.symbol 和 row.change 代替下標訪問。需要注意的是這個只有在列名是合法的python識別符號的時候才生效。如果不是的話,你可能需要修改下原始的列名(如將非識別符號字元替換成下劃線之類的)。

另外乙個選擇就是將資料讀取到乙個字典序列中去。可以這樣做:

import csv

with open('stocks.csv') as f:

f_csv = csv.dictreader(f)

for row in f_csv:

# process row

...在這個版本中,你可以使用列名去訪問每一行的資料了。比如,row['symbol'] 或者 row['change'] 。

為了寫入csv資料,你仍然可以使用csv模組,不過這時候先建立乙個 writer 物件。例如;

headers = ['symbol','pr程式設計客棧ice','date','time','change','volume']

rows = [('aa', 39.48, '6/11/2007', '9:36am', -0.18, 181800),

('aig', 71.38, '6/11/2007', '9:36am', -0.15, 195500),

('axp', 62.58, '6/11/2007', '9:36am', -0.46, 935000),

]with open('stocks.csv','w') as f:

f_csv = csv.writer(f)

f_csv.writerow(headers)

f_csv.writerows(rows)

如果你有乙個字典序列的資料,可以像這樣做:

headers = ['symbol', 'price', 'date', 'time', 'change', 'volume']

rows = [,

, ,

]with open('stocks.csv','w') as f:

f_csv = csv.dictwriter(f, headers)

f_csv.writeheader()

f_csv.writerows(rows)

討論你應該總是優先選擇csv模組分割或解析csv資料。例如,你可能會像編寫類似下面這樣的**:

with open('stocks.csv') as f:

for line in f:

row = line.split(',')

# process row

...使用這種方式的乙個缺點就是你仍然需要去處理一些棘手的細節問題。比如,如果某些字段值被引號包圍,你不得不去除這些引號。另外,如果乙個被引號包圍的字段碰巧含有乙個逗號,那麼程式就會因為產生乙個錯誤大小的行而出錯。

預設情況下,csv 庫可識別microsoft excel所使用的csv編碼規則。這或許也是最常見的形式,並且也會給你帶來最好的相容性。然而,如果你檢視csv的文件,就會發現有很多種方法將它應用到其他編碼格式上(如修改分割字元等)。例如,如果你想讀取以tab分割的資料,可以這樣做:

# example of reading tab-separated values

with open('stock.tsv') as f:

f_tsv = csv.reader(f, del程式設計客棧imiter='\t')

for row in f_tsv:

# process row

...如果你正在讀取csv資料並將它們轉換為命名元組,需要注意對列名進行合法性認證。例如,乙個csv格式檔案有乙個包含非法識別符號的列頭行,類似下面這樣:

這樣最終會導致在建立乙個命名元組時產生乙個 valueerror 異常而失敗。為了解決這問題,你可能不得不先去修正列標題。例如,可以像下面這樣在非法識別符號上使用乙個正規表示式替換:

import re

with open('stock.csv') as f:

f_csv = csv.reader(f)

headers = [ re.sub('[^a-za-z_]', '_', h) for h in next(f_csv) ]

row = namedtuple('row', headers)

for r in f_csv:

row = row(*r)

# process row

...還有重要的一點需要強調的是,csv產生的資料都是字串型別的,它不會做任何其他型別的轉換。如果你需要做這樣的型別轉換,你必須自己手動去實現。下面是乙個在csv資料上執行其他型別轉換的例子:

col_types = [str, float, str, str, float, int]

with open('stocks.csv') as f:

f_csv = csv.reader(f)

headers = next(f_csv)

for row in f_csv:

# apply conversions to the row items

row = tuple(convert(value) for convert, value in zip(col_types, row))

...另外,下面是乙個轉換字典中特定欄位的例子:

print('reading as dicts with type conversion')

field_types = [ ('price', float),

('change', float),

('volume', int) ]

with open('stocks.csv') as f:

for row in csv.dictreader(f):

row.update((key, conversion(row[key]))

for key, conversion in field_types)

print(row)

通常來講,你可能並不想過多去考慮這些轉換問題。在實際情況中,csv檔案都或多或少有些缺失的資料,被破壞的資料以及其它一些讓轉換失敗的問題。因此,除非你的資料確實有保障是準確無誤的,否則你必須考慮這些問題(你可能需要增加合適的錯誤處理機制)。

最後,如果你讀取csv資料的目的是做資料分析和統計的話,你可能需要看一看 pandas 包。pandas 包含了乙個非常方便的函式叫 pandas.read_csv() ,它可以載入csv資料到乙個 dataframe 物件中去。然後利用這個物件你就可以生成各種形式的統計、過濾資料以及執行其他高階操作了。

python讀取 寫入csv檔案

總是記不住怎麼讀取csv檔案,每次都是上網查,寫個部落格記錄下來看看會不會記得更清楚。個人比較喜歡用pandas的read csv函式來讀取csv檔案 import pandas as pd train data pd.read csv data train.csv 讀取後的資料是dataframe...

python 讀取並寫入csv

使用python讀取csv檔案 要讀取的csv檔案為 訓練用資料.csv 新建立的寫內容的檔案為 222.csv import csv csv file csv.reader open 訓練用資料.csv r f open 222.csv w newline writer csv.writer f ...

Python如何寫入和讀取csv檔案

import csv 開啟要寫入的csv檔案,如果該路徑下沒有此檔案,會自動新建乙個test.csv檔案 f open mnt sdb test.csv w csv writer csv.writer f 寫入列名 csv writer.writerow name label 寫入資料 如果是寫入多...