#檢視資料集欄位型別,表結構
dfoff.info(
)#檢視行數,列數
dfoff.shape
df_train_stma.head(
)df_apma.dtypes
temp.shape
#篩選空值 null值
feature3 = off_train[pd.isnull(off_train[
'date'])
]feature3 = off_train[pd.isnull(off_train.date)
]feature3 = off_train[off_train.date.isnull()]
#出現空值的某行 全部去掉
dfoff.head(
).dropna(subset =
['coupon_id'])
#重置索引
#drop=true:在原有的索引列重置索引,不再另外新增新列。
#drop=false:原有的索引不變新增列名index,同時在新列上重置索引
dfoff[
'date_received'
]= dfoff[
'date_received'
].dropna(
).reset_index(drop =
true
)
Pandas統計特徵函式
python中用於資料探索的庫主要是pandas和matplotlib,pandas提供了大量與資料探索相關的函式。這些統計特徵函式能反映出資料的整體分布,主要作為pandas的物件dataframe或series的方法出現。sum 計算資料樣本的總和 按列計算 mean 計算資料樣本的算術平均數 ...
pandas 資料透視表
import numpy as np import pandas as pd df pd.dataframe dfout 38 a b c d e 0 foo one small 1 2 1 foo one large 2 4 2 foo one large 2 5 3 foo two small ...
Pandas透視表和交叉表
透視表 透視表 pivot table 是各種電子 程式和其他資料分析軟體中一種常見的資料彙總工具。它根據乙個或多個鍵對資料進行聚合,並根據行和列上得分組建將資料分配到各個矩形區域中。在python和pandas中,可以通過本章所介紹的groupby功能以及 能夠利用層次化索引的 重塑運算製作透視表...