import pandas as pd
isir=pd.read_table(r'c:\users\ asus \desktop\iris_pandas.csv'
,sep=
',')
print
(isir.head())
sepallength sepalwidth petallength petalwidth species
05.1
3.51.4
0.2 iris-setosa
14.9
0.11.4
0.2 iris-setosa
24.7
3.21.3
0.2 iris-setosa
34.6
3.11.5 nan iris-setosa
45.0
3.61.4
0.2 iris-setosa
import pandas as pd
isir=pd.read_table(r'c:\users\asus\desktop\iris_pandas.csv'
,sep=
',')
isir2=isir.dropna(
)print
(isir2.head())
sepallength sepalwidth petallength petalwidth species
05.1
3.51.4
0.2 iris-setosa
14.9
0.11.4
0.2 iris-setosa
24.7
3.21.3
0.2 iris-setosa
45.0
3.61.4
0.2 iris-setosa
55.4
3.91.7
0.4 iris-setosa
import pandas as pd
isir=pd.read_table(r'c:\users\asus\desktop\iris_pandas.csv'
,sep=
',')
isir2=isir.fillna(value=
)print
(isir2.head())
sepallength sepalwidth petallength petalwidth species
05.1
3.51.4
0.2 iris-setosa
14.9
0.11.4
0.2 iris-setosa
24.7
3.21.3
0.2 iris-setosa
34.6
3.11.5
1.3 iris-setosa
45.0
3.61.4
0.2 iris-setosa
import pandas as pd
isir=pd.read_table(r'c:\users\asus\desktop\iris_pandas.csv'
,sep=
',')
isir2=isir.fillna(value=
)isir2.fillna(method=
'ffill'
)print
(isir2.head())
sepallength sepalwidth petallength petalwidth species
05.1
3.51.4
0.2 iris-setosa
14.9
0.11.4
0.2 iris-setosa
24.7
3.21.3
0.2 iris-setosa
34.6
3.11.5
1.3 iris-setosa
45.0
3.61.4
0.2 iris-setosa
import pandas as pd
isir=pd.read_table(r'c:\users\asus\desktop\iris_pandas.csv'
,sep=
',')
isir2=isir.fillna(value=
)isir2.fillna(method=
'bfill'
)print
(isir2.head())
sepallength sepalwidth petallength petalwidth species
05.1
3.51.4
0.2 iris-setosa
14.9
0.11.4
0.2 iris-setosa
24.7
3.21.3
0.2 iris-setosa
34.6
3.11.5
1.3 iris-setosa
45.0
3.61.4
0.2 iris-setosa
import pandas as pd
isir=pd.read_table(r'c:\users\asus\desktop\iris_pandas.csv'
,sep=
',')
isir2=isir.fillna(value=
)q1=isir2.sepalwidth.quantile(q=
0.25
)q3=isir2.sepalwidth.quantile(q=
0.75
)iqr=q3-q1
ul=q3+
1.5*iqr
print
('判別異常值的上限臨界值:\n'
,ul)
#從資料中找出低於判別上限的最大值
s=isir2.sepalwidth[isir2.sepalwidth.max()
print
('用以替換異常值得資料:\n'
,s)#替換超過判別上限異常值
isir2.sepalwidth[isir2.sepalwidth>ul]
=sprint
(isir2.sepalwidth.describe())
判別異常值的上限臨界值:
4.05
用以替換異常值得資料:
4.0count 150.000000
mean 3.031333
std 0.490054
min0.10000025%
2.80000050%
3.00000075%
3.300000
max4.000000
name: sepalwidth, dtype: float64
import pandas as pd
isir=pd.read_table(r'c:\users\asus\desktop\iris_pandas.csv'
,sep=
',')
isir2=isir.fillna(value=
)q1=isir2.sepalwidth.quantile(q=
0.25
)q3=isir2.sepalwidth.quantile(q=
0.75
)iqr=q3-q1
ul=q3+
1.5*iqr
s=isir2.sepalwidth[isir2.sepalwidth.max()
isir2.sepalwidth[isir2.sepalwidth>ul]
=s#通過groupby方法,指定分組變數
isir3=isir2.groupby(by=
['species'
,'sepallength'])
#對分組變數進行統計彙總
result=isir3.aggregate(
)#調整變數名的順序
result=pd.dataframe(result,columns=
['species'
,'sepalwidth'
,'petallength'
,'petalwidth'])
#資料集重新命名
result.rename(columns=
,inplace=
true
)#將索引轉換為資料框的變數
result.reset_index(inplace=
true
)print
(result.head())
species sepallength q sepalwidth petallength petalwidth
0 iris-setosa 4.3
13.0
1.100000
0.11 iris-setosa 4.4
32.9
1.333333
0.22 iris-setosa 4.5
12.3
1.300000
0.33 iris-setosa 4.6
43.1
1.325000
1.34 iris-setosa 4.7
23.2
1.450000
0.2
python Pandas讀取資料
import pandas as pd fpath 檔案路徑 df pd.read csv fpath 使用pd.read csv讀取資料 df.head 檢視前幾行資料 df.shape 檢視資料的形狀返回df的行數和列數 df.columns 檢視df的列名 df.index 檢視索引列 df....
python pandas資料分組相關
資料的分組 先初始化資料 import pandas as pd import numpy as np data df pd.dataframe data groupby 分組使用groupby函式,與mysql的相同 分組之後從乙個df變成group物件,裡面是多個df group物件再呼叫聚合函...
Python pandas匯入 讀取資料
作為進行分析的第一步,我們首先需要讀取資料,今天就來分享下利用pandas讀取excel和csv資料 import pandas as pd data pd.read csv c users cs desktop data.csv csv的讀取非常簡單,只要注意路徑中使用 或者 而不要使用 利用 p...