dataframe是乙個類似於**的資料型別,如圖:
data(方框內的資料): numpy ndarray (structured or homogeneous), dict, or dataframe
index(行索引索引) : index or array-like
columns(列索引): index or array-like
dtype(data的資料型別) : dtype, default none
# 新建物件df = pd.dataframe([1, 2, 3, 4, 5], columns=['cols'], index=['a','b','c','d','e'])
df2 = pd.dataframe([[1, 2, 3],[4, 5, 6]], columns=['col1','col2','col3'], index=['a','b'])
df2結果:
col1 col2 col3
a 1 2 3
b 4 5 6
# 從csv檔案中讀取資料
df = pd.read_csv("iris.csv",
sep=',',
names=["a","b","c","d"])
# 從excel中讀取資料
df = pd.read_excel("iris.xlsx",
sheetname='***x',
header=true)
loc list of colum# 索引為a這一行的資料
df2.loc['a']
# 結果
col1 1
col2 2
col3 3
print df2.loc[['a','b']]
# 結果
col1 col2 col3
a 1 2 3
b 4 5 6
print df.loc[df.index[1:3]]
#結果 cols
b 2
c 3
# 訪問列資料
print df2[['col1','col3']]
# 結果
col1 col3
a 1 3
b 4 6
# dataframe元素求和# 預設是對每列元素求和
print df2.sum()
#結果col1 5
col2 7
col3 9
# 行求和
print df2.sum(1)
#結果a 6
b 15
dtype: int64
# 對每個元素乘以2
df_a = pd.dataframe(['wang','jing','hui','is','a','master'],columns=['col6'],index=['a','b','c','d','e','f'])dfb = pd.dataframe([1,2,4,5,6,7],columns=['col1'],index=['a','b','c','d','f','g'])
# 預設合併之接受索引已經存在的值
# 通過指定引數 how,指定合併的方式
print dfb.join(df_a,how='inner') # 合併兩個dataframe物件的交集
# 結果
col1 col6
a 1 wang
b 2 jing
c 4 hui
d 5 is
f 6 master
print dfb.join(df_a,how='outer')
#結果 col1 col6
a 1.0 wang
b 2.0 jing
c 4.0 hui
d 5.0 is
e nan a
f 6.0 master
g 7.0 nan
panda資料分析
1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...
python資料分析筆記中panda 3
1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...