pandas 讀入文字

2021-09-07 05:37:43 字數 2182 閱讀 1615

我們使用python做資料分析的時候,很多情況需要我們從本地讀入,在這裡我們主要總結如何使用pandas讀入文字

import pandas as pd

#讀入csv,設定header引數,讀取檔案的時候沒有標題

data=pd.read_csv(x,header=

none

)#names設定列名

data2 = pd.read_csv(

"data.txt"

,names=

["a"

,"b"

,"name"])

#names設定列名,設定index_col引數來設定列索引

data2 = pd.read_csv(

"data.txt"

,names=

["a"

,"b"

,"name"

],index_col=

"name"

)#讀入xls/xlsx

data=pd.read_excel(x,header=

none

)#讀入txt sep說明分隔符

data = pd.read_table(

"data.txt"

,sep=

",")

#讀入不規則txt可以採用正則讀入

data = pd.read_csv(

"data.txt"

,sep=

"\s+"

)

pandas在讀入文字時候,會預設將na、-1.#ind、null等當作是缺失值,此時預設使用nan進行代替,當然,也可以採用na_values設定,例如

data=pd.read_csv(

"data.txt"

,na_values=[-

999,-1

])

對於有中文的存在,我們可以這樣處理

f =

open

("d:/比賽/使用者貸款風險**/個人徵信_1108/個人徵信/train/bank_detail_train.txt"

,"r"

)#設定檔案物件

df=pd.read_table(f,sep=

',')

以下說明引數

path:表示檔案系統位置、url、檔案型物件的字串。

sep或delimiter:用於對行中各欄位進行拆分的字串行或正規表示式。

header:用作列名的行號。預設為0(第一行),如果檔案沒有標題行就將header引數設定為none。

index_col:用作行索引的列編號或列名。可以是單個名稱/數字或有多個名稱/數字組成的列表(層次化索引)。

names:用於結果的列名列表,結合header=none,可以通過names來設定標題行。

skiprows:需要忽略的行數(從0開始),設定的行數將不會進行讀取。

na_values:設定需要將值替換成na的值。

comment:用於注釋資訊從行尾拆分出去的字元(乙個或多個)。

parse_dates:嘗試將資料解析為日期,預設為false。如果為true,則嘗試解析所有列。除此之外,引數可以指定需要解析的一組列號或列名。如果列表的元素為列表或元組,就會將多個列組合到一起再進行日期解析工作。

keep_date_col:如果連線多列解析日期,則保持參與連線的列。預設為false。

converters:由列號/列名跟函式之間的對映關係組成的字典。如,會對列索引為age列的所有值應用函式f。

dayfirst:當解析有歧義的日期時,將其看做國際格式(例如,7/6/2012 —> june 7 , 2012)。預設為false。

date_parser:用於解析日期的函式。

nrows:需要讀取的行數。

iterator:返回乙個textparser以便逐塊讀取檔案。

chunksize:檔案塊的大小(用於迭代)。

skip_footer:需要忽略的行數(從檔案末尾開始計算)。

verbose:列印各種解析器輸出資訊,如「非數值列中的缺失值的數量」等。

encoding:用於unicode的文字編碼格式。例如,"utf-8"或"gbk"等文字的編碼格式。

squeeze:如果資料經過解析之後只有一列的時候,返回series。

thousands:千分位分隔符,如",「或」."。

學習pandas 讀入文字資料

import pandas as pd pd.read csv filepath or buffer 檔案路徑 不要包含中文 sep 列分隔符 header infer 指定資料中的第幾行作為變數名 names none 自定義變數名列表 index col none 將被作為索引的列,多列時只能使...

Pandas讀取文字

pandas在處理千萬行級別的資料中有非常高的實用價值,通過將文字資料讀取載入到記憶體中,在利用pandas進行資料處理運算,效率非常高。excel表適合處理幾十萬行級別的資料,pandas則適用於處理千萬級別的資料 一般情況下千萬級別的資料動輒在幾個gb以上,因此建議電腦記憶體在16gb以上為佳。...

Python的pandas讀入含多個表的excel

python的pandas讀入含多個表的excel 自學程式設計,編寫 是乙個嚴謹的過程,哪怕乙個逗號的中英文,都會導致程式出現。實踐的過程中,總是遇到不同的問題,寫下自己的學習過程,方便你我他。將none傳遞給read excel函式,返回的是乙個key為表名的字典。import pandas a...