初學pandas不斷補充整理歸納常用的,配合numpy使用預設
import pandas as pd
import numpy as np
#習慣簡寫
一、建立
1.seriess = pd.series([1, 3, 4, np.nan, 1])
2.日期dates = pd.date_range('20180101', periods=6)
3.dict物件建立dataframe
df = pd.dataframe()
4.指定行列名稱 注list(『abc』)
df2 = pd.dataframe(np.arange(24).reshape(6, 4), index=dates, columns=list('abcd'))
5.下面是numpy的一些建立方法
列舉a = np.array([2,3,4],dtype=np.int)# 預設int64
零b = np.zeros((3,4)) # 3行4列全為0
壹c = np.ones((3,4)) # 全為1
等差遞增1e = np.arange(10,20,2) #[10 12 14 18]
等差遞增2f = np.linspace(1,10,5) #[1. 3.25 6.5 8.75 10] 加.reshape會報錯
指定矩陣排列
g = np.linspace(1,10,6).reshape((3,2)) # [[ 1. 2.8][ 4.6 6.4][ 8.2 10. ]]
.reshape指定矩陣的排列方式
0-1隨機數np.random.random((2,4))
二、檢視及排序axis= 0行 1列 切片:連續 ,間斷
df2.index 行名
df2.columns 列名
df2.values 值
df2.t 倒序
行列排序改變0,1df2.sort_index(axis=0, ascending=false)
資料值排列df2.sort_values(by='f', ascending=false)
不顯示帶有缺失值的行dropna(how='any')
填充缺失值df1.fillna(value=4)
pieces = [df2[:3], df2[2:7], df2[7:]]
[ a b c d
2018-01-01 0 1 2 3
2018-01-02 4 5 6 7
2018-01-03 8 9 10 11,
a b c d
2018-01-03 8 9 10 11
2018-01-04 12 13 14 15
2018-01-05 16 17 18 19
2018-01-06 20 21 22 23,
empty dataframe
columns: [a, b, c, d]
index:
]
連線pandas物件 pd.concat(pieces)
a b c d
2018-01-01 0 1 2 3
2018-01-02 4 5 6 7
2018-01-03 8 9 10 11
2018-01-03 8 9 10 11
2018-01-04 12 13 14 15
2018-01-05 16 17 18 19
2018-01-06 20 21 22 23
a b c d
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 14 15
4 16 17 18 19
5 20 21 22 23
6 12 13 14 15
三、選擇
標籤選擇 loc
1.一行 df.loc[dates[0]]
2.多軸 df.loc[:, [『a』, 『b』]]
3.多軸切片 df.loc[『20180102』:『20180104』, [『a』, 『b』]]
4.標量 df.loc[dates[0], 『a』] = df.at[dates[0], 『a』]
位置選擇 iloc
1.整數字置 df.iloc[3]
2.:切片 df.iloc[3:5, 0:2]
3.,切片 df.iloc[[1, 2, 4], [0, 2]]
4.整行 df.iloc[1:3, :]
5.整列 df.iloc[:, 1:3]
6.標量 df.iloc[1, 1] = df.iat[1, 1
numpy pandas基礎入門(2)
在numpy中的基本運算,常用的有 乘方 dot 矩陣乘法 import numpy as np a np.array 1 2,3 b np.array 4 8,6 c1 a b 減法運算,對應位置元素相減 c2 a b 加法運算,對應位置元素相加 c3 a b 乘法運算,對應位置元素相乘 c4 a...
numpy pandas 計算雜訊特徵序列
出入t圈小菜雞,因工作需要學習了pandas numpy資料分析庫,謹以此帖,記錄經驗。如下圖所示,雜訊特徵幅度基本在0 1e13之間波動。請計算 data.npy資料中雜訊特徵幅度高於0.5e13所佔比例,並按自然小 時 0點 1點 統計該比例隨時間的分布。匯入原始資料 data pd.conca...
numpy pandas 資料處理操作總結
開啟檔案 a pd.read csv a.txt header none sep t header控制檔案中是否包含列名,sep控制劃分方式,可使用正規表示式 檔案合併 c pd.concat a,b 列相同的兩個檔案縱向連線 檔案排序 a a.sort values col1 col2 先根據列 ...