dataframe確實使用方便,但是如果每次匯入資料都需要我們自己手動實現未免太麻煩了些,以下就介紹dataframe對不同格式檔案的匯入
本章僅僅介紹txt或文字檔案
name pop eco hu
c 13 2 none
a 2 1 none
最簡單的匯入方式:
import pandas as pd
data=pd.read_table('test.txt',sep='\t')
print data
>>> name pop eco hu
0 c 13 2 none
1 a 2 1 none
但是當沒有標題時,應加上header=none欄位
data=pd.read_table('test.txt',sep='\t',header=none)
當資料的分割方式很混亂時,dataframe也能相當好的處理此類文字,只要匯入正確的正規表示式就可
如文字格式如下:(|,空格,逗號都是分隔符)
a|13,2 no
c 2,1 no
**如下:
data=pd.read_table('test2',sep='[|,\s,\t,\,]+',header=none)
print data
>>> 0 1 2 3
0 a 13 2 no
1 c 2 1 no
有時候,沒有頭部描述,但我們希望給它乙個描述作為每一列的index
name=['state','pop','eco']
data=pd.read_table('test2',names=name,sep='[|,\s,\t,\,]+',header=none)
print data
>>> state pop eco
a 13 2 no
c 2 1 no
有時候,我們想要吧某一列作為索引,應加引數index_col=『』,但是不知為何本人自己實踐時出錯,待以後改正
有時候,我們在文字中用某些特殊符號表示缺失,可以進行如下轉換:
from pandas.parser import na_values
name=['state','pop','eco']
data=pd.read_table('test2',names=name,sep='[|,\s,\t,\,]+',header=none,na_values='no')
print data
state pop eco
a 13 2 nan
c 2 1 nan
處理完畢後,有時候想以某種形式寫回去,如下:
data.to_csv('test.txt', sep='*')
DataFrame中關於object資料型別的說明
1 構造乙個dataframe 圖中,我們構造了乙個dataframe,這個dataframe有2列,第一列全部都是數值型別,第二列中既有數值型別又有布林型別。對於col1列,由於都是同一種資料型別,系統能夠辨認出來,這是一種int數值型別 int64是一種預設的資料型別 對於col2列,由於這一列...
入力 文字數
入力 文字數 string 入力 文字 maxlength 入力 文字最大數 function checklen string,maxlength var a 0 for i 0 i string.length i return a maxlength 入力 文字數 半形 string 入力 文字 ...
pandas文字資料
文字資料 string型別的性質 string與object的區別 字元訪問方法 string accessor methods,如str.count 會返回相應資料的nullable型別,而object會隨著缺失值的存在而改變返回型別 某些series 法不能在string上使 如 series....