.read_table() / read_csv()
filepath_or_buffer
檔案路徑
sep=』\t』
分隔符. 設定為n, 將嘗試自動確定
delimiter=n
sep的備用引數名
header='infer'
int用作列名稱的行號
ints
若傳入列表則表示這幾行都將作為列標籤
none
檔案中不包含標題行
'infer'
header = 0 if name is none else none
names=n
作為列標籤的列表
index_col=n
int用作行標籤的列
序列使用multiindex
f強制使用第一列作為索引
usecols=n
list_like: 要讀取的列, 位置或列標籤
squeeze=f
若果解析的資料只有一列, 則返回乙個series
prefix=n
在沒有標題時新增到列號的字首,例如'x'代表x0,x1,...
mangle_dupe_cols=t
重複的列將被指定為」x」, "x.1"...「x.n」. 傳入f將導致覆蓋資料
dtype=n
資料或每列資料型別. 例如:
engine=n
選擇解析器引擎. 『c』引擎速度更快,而』python』引擎目前更加完善
converters=n
dict . 轉換某些列中的值的函式, 鍵是整數或列標籤
true_values=n
list. 要考慮的值為true ???
false_values=n
list. 要考慮的值為false ???
skipinitialspace=f
跳過分隔符後的空白符
skiprows=n
要跳過的行號(list)或要跳過的行數(integer)
nrows=n
要讀取的檔案的行數. 適用於讀取大檔案的片段
na_values=n
識別為nan的字串或字串列表
keep_default_na=t
t設定的na_values追加到預設識別為nan值的列表, 否則將覆蓋預設
na_filter=t
是否檢測na值, 在確定沒有na的資料中設定為f可提高讀取大檔案的效能
verbose=f
是否顯示每一列中的na值的數量
skip_blank_lines=t
如果為t, 則跳過空白行, 而不是解釋為nan值
parse_dates=f
true: 嘗試將索引解析成日期
[位置或標籤]: 嘗試將這些列解析成日期
[[位置或標籤]]: 合併這些列並嘗試將其解析成日期
: 合併指定列指定標籤為name, 並嘗試將其解析為日期
infer_datetime_format=f
true: 嘗試加快parse_dates解析速度
keep_date_col=f
true: 若parse_dates解析成的日期列沒有占用原資料標籤, 則保留原始列
date_parser=n
用於將字串轉換為datetime的函式, 預設dateutil.parser.parser
dayfirst=f
true: 識別歐洲格式日期(日-月-年), 預設將識別為(月-日-年)
iterator=f
生成迭代器, 通過迭代或get_chunk()獲取資料塊(預設全部)
chunksize=n
int: 生成迭代器, 通過迭代或get_chunk()每次獲取此引數指定大小的資料塊
compression='infer'
用於磁碟上資料的即時解壓縮。如果「infer」,則使用gzip,bz2,zip或xz,如果filepath_or_buffer是分別以「.gz」, 「.bz2」, 「.zip」或「xz」結尾的字串,否則不進行解壓縮。如果使用'zip',zip檔案必須只包含乙個要讀入的資料檔案. 設定為無, 無解壓縮
thousands=n
str: 千位分隔符, 預設無
decimal='.'
可識別為小數點的字元
lineterminator=n
str(length 1) 將檔案拆分成行的字元, 只有c直譯器有效
quotechar='"'
str(length 1) 用於表示帶引號專案的開始和結束的字元. 引號項可以包含分隔符, 它將被忽略
quoting=0
3: quotechar引數將不會生效
escapechar=n
???comment=n
str(length 1) 以此字元開頭的行將被當做空白行處理
encoding=n
編碼dialect=n
???tupleize_cols=f
當選擇多行作為列標籤時, 預設生成多級索引, 若設定為true, 則會把多個索引組成元組作為單個標籤
error_bad_lines=t
false: 異常行將被刪除
warn_bad_lines=t
error_bad_lines為false, 且此引數為true, 將會輸出每乙個error行的警告
skipfooter=0
跳過檔案底部的行數(不支援engine ='c')
skip_footer=0
棄用, 使用skipfooter引數
doublequote=t
將連續多個quotechar指定的字元當做乙個來識別
delim_whitespace=f
指定是否將空白用作分隔符, 相當於設定sep='\s+'. 若設為true, 則不應為delimiter引數傳入任何內容(支援python直譯器)
compact_ints=f
將被刪除
use_unsigned=f
將被刪除
low_memory=t
???buffer_lines=n
將被刪除
memory_map=f
如果為filepath_or_buffer提供了檔案路徑,則將檔案物件直接對映到記憶體上,並從中直接訪問資料。使用此選項可以提高效能,因為不再有任何i / o開銷
float_precision=n
???.read_fwf()
讀取固定寬度格式的檔案
.read_msgpack()
???
pandas 讀入文字
我們使用python做資料分析的時候,很多情況需要我們從本地讀入,在這裡我們主要總結如何使用pandas讀入文字 import pandas as pd 讀入csv,設定header引數,讀取檔案的時候沒有標題 data pd.read csv x,header none names設定列名 dat...
Pandas讀取文字
pandas在處理千萬行級別的資料中有非常高的實用價值,通過將文字資料讀取載入到記憶體中,在利用pandas進行資料處理運算,效率非常高。excel表適合處理幾十萬行級別的資料,pandas則適用於處理千萬級別的資料 一般情況下千萬級別的資料動輒在幾個gb以上,因此建議電腦記憶體在16gb以上為佳。...
python庫 Pandas學習筆記
food info pandas.read csv 檔名 讀取csv檔案 print type food info 顯示food info的型別,csv檔案的型別是dataframe print food info.dtypes 顯示每一列的特徵儲存的是什麼型別,可以看到在csv檔案中,str型別被...