將**型資料讀取為dataframe物件是pandas的重要特性
read_csv
從檔案、url或檔案型物件讀取分隔好的資料,逗號是預設分隔符
read_table
從檔案、url或檔案型物件讀取分隔好的資料,製表符 『\t』 是預設分隔符
指定分隔符
pd.read_table(
'hello/ex1.csv'
,sep=
',')
當字段以不同數量的空格分開時,可以向read_table傳入乙個正規表示式作為分隔符,如sep=』\s+』 表示匹配任意多個空白字元,包括空格、製表符、換頁符等等。
附:正規表示式:描述一種字串匹配的模式,用於檢查字串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。
(節選自菜鳥教程)
非列印字元
\cx 匹配由x指明的控制字元。例如, \cm 匹配乙個 control-m 或回車符。x 的值必須為 a-z 或 a-z 之一。否則,將 c 視為乙個原義的 『c』 字元。
\f 匹配乙個換頁符。
\n 匹配乙個換行符。
\r 匹配乙個回車符。
\s 匹配任何空白字元,包括空格、製表符、換頁符等等。注意 unicode 正規表示式會匹配全形空格符。
\s 匹配任何非空白字元。
\t 匹配乙個製表符。
\v 匹配乙個垂直製表符。
skiprows=[0,2] 跳過第一行第三行
na_values=[『null』] 處理缺失值
分塊讀入文字檔案
嘗試大檔案之前,可以先對pandas的顯示設定進行調整
pd.options.display.max_rows=
10
如果只想讀取一小部分行,可以指明nrows
分塊讀入檔案,chunksize作為每一塊行數
未完待續。。。洗洗睡,明天再學
內容部分引用於《利用python進行資料分析》第2版(wes mckinney著,徐敬一譯),僅供大家一起學習交流
如有錯誤,請多指教
pandas進行資料分析
最近參加了一次apmcm,題目給出了很多 我們需要對資料進行分析。顯然,作為一名會python的大學生,肯定不會直接在 上進行各種變動,本文就如何使用pandas對excel 進行資料分析做一些介紹。3.1 讀取所有表中的職業 讀取所有表中的職業 pros.xlsx中有所有職業 pros path ...
pandas 對dataframe進行資料預處理
from sklearn import preprocessing enc preprocessing.onehotencoder enc.fit 0,0,3 1,1,0 0,2,1 1,0,2 fit來學習編碼 enc.transform 0,1,3 toarray 進行編碼輸出 array 1....
使用Pandas進行資料清洗
資料清洗的目的是修正異常值,以更好地進行運算和觀察結果。通過pandas對序列或資料幀的清洗分為兩個步驟 異常檢測和資料修正。1.異常檢測 pandas中的空值用 nan 表示,可以通過呼叫isnull和notnull來檢測序列物件和資料幀物件是否為異常值。2.資料修正資料檢測完畢之後,需要對資料進...