df.head(n)
# 檢視 dataframe 物件的前n行
df.tail(n)
# 檢視 dataframe 物件的最後n行
df.sample(n)
# 檢視 n 個樣本,隨機
df.shape # 檢視行數和列數
df.info(
)# 檢視索引、資料型別和記憶體資訊
df.describe(
)# 檢視數值型列的匯**計
df.dtypes # 檢視各欄位型別
df.axes # 顯示資料行和列名
df.mean(
)# 返回所有列的均值
df.mean(1)
# 返回所有行的均值,下同
df.corr(
)# 返回列與列之間的相關係數
df.count(
)# 返回每一列中的非空值的個數
df.max()
# 返回每一列的最大值
df.min()
# 返回每一列的最小值
df.median(
)# 返回每一列的中位數
df.std(
)# 返回每一列的標準差
df.var(
)# 方差
s.mode(
)# 眾數
s.prod(
)# 連乘
s.cumprod(
)# 累積連乘,累乘
df.cumsum(axis=0)
# 累積連加,累加
s.nunique(
)# 去重數量,不同值的量
df.idxmax(
)# 每列最大的值的索引名
df.idxmin(
)# 最小
df.columns # 顯示所有列名
df.team.unique(
)# 顯示列中的不重複值
# 檢視 series 物件的唯一值和計數, 計數佔比: normalize=true
s.value_counts(dropna=
false
)# 檢視 dataframe 物件中每一列的唯一值和計數
df.(pd.series.value_counts)
df.duplicated(
)# 重複行
df.drop_duplicates(
)# 刪除重複行
# set_option、reset_option、describe_option 設定顯示要求
pd.get_option(
)# 設定行列最大顯示數量,none 為不限制
pd.options.display.max_rows =
none
pd.options.display.max_columns =
none
df.col.argmin(
)# 最大值[最小值 .argmax()] 所在位置的自動索引
df.col.idxmin(
)# 最大值[最小值 .idxmax()] 所在位置的定義索引
ds.cumsum(
)# 前邊所有值之和
ds.cumprod(
)# 前邊所有值之積
ds.cummax(
)# 前邊所有值的最大值
ds.cummin(
)# 前邊所有值的最小值
# 視窗計算(滾動計算)
ds.rolling(x)
.sum()
#依次計算相鄰x個元素的和
ds.rolling(x)
.mean(
)#依次計算相鄰x個元素的算術平均
ds.rolling(x)
.var(
)#依次計算相鄰x個元素的方差
ds.rolling(x)
.std(
)#依次計算相鄰x個元素的標準差
ds.rolling(x)
.min()
#依次計算相鄰x個元素的最小值
ds.rolling(x)
.max()
#依次計算相鄰x個元素的最大值
pandas 檢視資料的基本資訊 Series 篇
s.describe 描述性統計資訊 s.index 標籤 s.index.values 標籤 s.values 資料 s.to numpy 資料 推薦 s.head n 前n個 s.tail n 尾n個 s.memory usage 占用記憶體 位元組b s.name 名字 s.dtype 型別s...
pandas檢視缺失資料佔比(實戰)
在資料建模前,需要檢視每一列資料的缺失情況,當缺失值的佔比超過一定閾值,就需要考慮,這一列資料 或者這乙個變數 是否需要參與建模。一般選用的閾值在0.9,即 當某乙個變數的缺失值佔比達到90 以上,就需要刪除。這裡選用pandas作為主要的資料分析工具,感興趣的讀者可以去pandas官網逛逛,下面開...
pandas(4) 檢視資料框資訊
目錄載入完資料後,需要對資料的全貌有所了解。源excel檔案df info.xlsx df.head 檢視前五行 df.head 8 檢視前8條資料 df.tail 檢視後五條資料 df.tail 8 檢視後8條資料 df.sample 隨機檢視一條資料 df.sample 5 隨機檢視5條資料 s...