通過duplicated()函式可以找出重複的行,操作如下:
frame.duplicated() //判斷是否重複行
frame[frame.duplicated()] //刪除重複行
frame.drop_duplicates() //刪除重複行
示例如下:
>>
> frame = pd.dataframe(
)>>
> frame.duplicated()0
false
1false
2false
3true
dtype:
bool
>>
> frame[frame.duplicated()]
color value
3 black 3
>>
> frame.drop_duplicates(
) color value
0 white 1
1 white 2
2 black 3
>>
>
ser.replace(np.nan, 0) //series元素替換
newcolors = //key為舊元素,value為新元素
frame.replace(newcolors) //dataframe通過對映替換元素
可以通過dict定義一列新的資訊,key為已存在列的值,value為新的列的值
>>
> frame = pd.dataframe(
)>>
> frame
color
0 red
1 black
>>
> price =
>>
> frame[
'price'
]= frame[
'color'].
map(price)
>>
> frame
color price
0 red 1
1 black 2
這裡通過frame[『price』] = frame[『color』].map(price),對映出乙個新列,列名為price
同樣還有其它方式如:
frame[『d』] = frame[『price』].map(lambda x: x*2) //lambda表示式,新列名為d,值為price列2倍
frame[『d』] = frame[『price』].map(double) //自定義函式double
**如下:
>>
>
defdouble
(x):..
.return x*2.
..>>
> frame[
'd']
= frame[
'price'].
map(double)
>>
> frame
color price d
0 red 1
21 black 2
4>>
>
通過rename函式可以重新命名索引(可更改部分索引)和列名:
frame.rename(index=, columns=, inplace=true),相關引數如下:
index //更改索引,預設為更改索引
inplace //替換呼叫物件本身,否則只返回新的物件
Python之資料分析(寶可夢資料分析)
在此感謝阿里雲天池平台提供的學習平台,並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫,在 matplotlib 的基礎上,進行了更高階的封裝,使得作圖更加方便快捷。即便是沒有什麼基礎的人,也能通過極簡的 做出具有分析價值而又十...
python資料分析之Numpy
numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性,維度個數 shape屬性,各維度大小 dtype屬性,資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...
Python 資料分析之scipy
scipy是一組專門解決科學計算中各種標準問題域的包的集合,主要包括下面這些包 匯入積分模組 import numpy as np 匯入numpy庫 from scipy import integrate 匯入定積分模組scipy.integrate.quad func,a,b 計算單重積分,引數分...