import pandas as pd
import numpy as np
df = pd.read_csv(
'data/table_missing.csv'
)df.head(
)
一、缺失觀測及其型別
了解缺失資訊
(a)isna和notna方法
對series使用會返回布林列表
df[
'physics'
].isna(
).head(
)
0
false
1false
2false
3true
4false
name: physics, dtype:
bool
df[
'physics'
].notna(
).head(
)
0
true
1true
2true
3false
4true
name: physics, dtype:
bool
對dataframe使用會返回布林表
df.isna(
).head(
)
對於dataframe我們更關心到底每列有多少缺失值
df.isna().
sum(
)
school 0
class 4
id 6
gender 7
address 0
height 0
weight 13
math 5
physics 4
dtype: int64
可以通過第1章中介紹的info函式檢視缺失資訊
df.info(
)
<
class
'pandas.core.frame.dataframe'
>
rangeindex:
35 entries,
0 to 34
data columns (total 9 columns)
:# column non-null count dtype --
----
----
----
----
----
----
--0 school 35 non-null object
1 class 31 non-null object
2 id 29 non-null float64
3 gender 28 non-null object
4 address 35 non-null object
5 height 35 non-null int64
6 weight 22 non-null float64
7 math 30 non-null float64
8 physics 31 non-null object
dtypes: float64(3)
, int64(1)
,object(5
)memory usage:
2.6+ kb
(b)檢視缺失值的所以在行
以最後一列為例,挑出該列缺失值的行
df[df[
'physics'
].isna(
)]
(c)挑選出所有非缺失值列
使用all就是全部非缺失值,如果是any就是至少有乙個不是缺失值
df[df.notna().
all(1)
]
暫時只整理了這麼多,未完待更新 task0 最小棧 和task1(有效括號)
2.letecode2 堆疊和數列 stack and queue 2.1概念 2.1.1.棧都是一種資料項按序排列的資料結構,只能在一端 稱為棧頂 top 對資料項進行插入和刪除。棧,先進後出。2.1.2佇列是一種特殊的線性表,只允許在表的頭部 front處 進行刪除操作,在表的尾部 rear處 ...
資料分析高階 DCIC競賽 task0準備工作
學習資源 學習手冊 賽事詳情 共有三個部分的競賽 1 端午假期a城市交通網路擁堵識別及緩堵策略研究 需要具有從經緯度對映到路段的能力 2 a城市巡遊車與網約車與運營特徵對比分析 主要是對計程車和網約車的分布之類的對比,相對於第乙個賽題難度稍小 3 創意題 城市巡遊車與網約車運營特徵對比分析 賽題說明...
Task1 pandas基礎學習筆記
pandas應用的主要方向在於對資料的整理,pandas基於numpy,具有十分強大的資料整合功能,在生成series及dataframe時,都以二維列表的形式展現,下面主要介紹各種基本函式 為了方便,使用head 函式,使用該函式提取前5個資料,比較具有代表性 1.csv檔案 df pd.read...