如果用anaconda安裝python的話,可以直接使用conda install
或者pip install
。
(e:\anaconda3) c:\users>conda install pandas
或者:
> pip install pandas
2.1資料預處理
###資料預處理
import pandas as pd
train=pd.read_json(r'g:\訓練小樣本3_label.csv'
,lines=
true
)print
(train.sample(2)
)
輸出結果:
0
20193.0
10097.5
2.2 缺失值個數
#test tianchi
import pandas as pd
defcol_miss
(train_df)
: col_missing_df = train_df.isnull().
sum(axis=0)
.reset_index(
) col_missing_df.columns =
['col'
,'missing_count'
] col_missing_df = col_missing_df.sort_values(by=
'missing_count'
)return col_missing_df
if __name__ ==
'__main__'
: train_df = pd.read_excel(r'g:\null_test.xlsx'
) col_missing_df = col_miss(train_df)
執行結果:
index 0
0 a 0
1 b 1
2 c 2
3 d 1
(1)篩選query
這需要新增expression就可以進行篩選dataframe.
dataframe.query(self, expr, inplace=
false
,**kwargs)
>>
> df = pd.dataframe(
)>>
> df
a b c c01
101012
8923
6834
4745
26>>
> df.query(
'a > b'
) a b c c45
26
(2) 日期
df = pd.
dataframe()
pd.to_datetime
(df)
輸出:
0
2015-02
-0412016-03
-05dtype: datetime64[ns]
參考:
pandas query操作;
10分鐘了解pandas;
pandas pdf;
pandas_to_datetime
Python包之Pandas介紹
前言 pandas 是乙個開源的軟體庫。dataframes和series是其兩個主要資料結構,被廣泛用於資料分析。series 是單維索引陣列,而dataframes 是具有列級和行級索引的 資料結構。pandas 是預處理資料集的絕佳工具,可提供高度優化的效能。numpy介紹 下面是詳細介紹 用...
python 安裝pandas教程
python3 安裝pandas 如果使用python2需要安裝的話,可以用pip install pandas 如果使用python3需要安裝的話,可以用pip3 install pandas 會自動安裝依賴庫 呼叫包,看下是否安裝成功 python3 python 3.8 1 tags v3.8...
MAC 下安裝numpy包,pandas包等
首先請檢查自己電腦的python版本,mac版的按照各位博主的說法是自帶python2.7,我起初不知道所以又安裝了python3.7。如果自帶python2.7的話可以直接安裝。第一步,開啟終端。輸入 python3 m pip install upgrade pip 然後就出現這樣了。第二步,開...