import numpy as np
import pandas as pd
from pandas import series,dataframe
# 讀取剛剛分解處理完的返回資料
link_csv =
'/users/bennyrhys/desktop/資料分析視覺化-資料集/homework/demo_duplicate.csv'
df = pd.read_csv(link_csv)
df
unnamed: 0
price
seqno
symbol
time00
1623.0
0.0147341196211
1623.0
0.0147341196222
1623.0
0.0147341196333
1623.0
0.0147341196344
1649.0
1.01473411963
# 刪掉無用的unname
del df[
'unnamed: 0'
]df
price
seqno
symbol
time
01623.0
0.01473411962
11623.0
0.01473411962
21623.0
0.01473411963
31623.0
0.01473411963
41649.0
1.01473411963
df.size
20
len
(df)
5
# 檢視no列有多少重複的
df['seqno'
].unique(
)
array([0., 1.])
len
(df[
'seqno'
].unique(
))
2
# 檢測是否與前邊重複
df['seqno'
].duplicated(
)
0 false
1 true
2 true
3 true
4 false
name: seqno, dtype: bool
# 刪掉重複的資料也就是上方展示為true的資料
df['seqno'
].drop_duplicates(
)
0 0.0
4 1.0
name: seqno, dtype: float64
# 這樣範圍侷限,無法展示全部(series)
type
(df[
'seqno'
].drop_duplicates(
))
pandas.core.series.series
# 這樣no列重複值刪不感覺(不傳參,則整體考慮某列重複最小處理原則)
df.drop_duplicates(
)
price
seqno
symbol
time
01623.0
0.01473411962
21623.0
0.01473411963
41649.0
1.01473411963
# 在dataframe狀態下進行處理(暫時全部)
df.drop_duplicates(
['seqno'
])
price
seqno
symbol
time
01623.0
0.01473411962
41649.0
1.01473411963
# 去重 引數(保留最後出現的)
df.drop_duplicates(
['seqno'
],keep=
'last'
)
price
seqno
symbol
time
31623.0
0.01473411963
41649.0
1.01473411963
通過去重進行資料清洗
檢視seqno列都有哪些值 df seqno unique 檢視唯一的值duplicated方法duplicated用於從上到下比較指定某一列的值,當這個值第一次出現時,返回false,當這個值和上乙個比一樣時,返回true drop duplicates去重複 drop duplicates方法將...
Python 資料分析視覺化
1 畫圖需要使用 matplotlib這個包 如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...
資料分析與視覺化
1.pip包管理 1 內建庫 包 庫 別人寫好的 直接引用,加快開發效率。內建包 python直譯器內建常用功能庫。直譯器安裝目錄 lib資料夾下,os time urllib等 資料夾裡有 init py 就成了乙個包。2 關於http模擬和html源 解析 python時代 urllib url...