pandas進行資料分析

2021-09-02 18:51:19 字數 1512 閱讀 6509

最近參加了一次apmcm,題目給出了很多**,我們需要對資料進行分析。顯然,作為一名會python的大學生,肯定不會直接在**上進行各種變動,本文就如何使用pandas對excel**進行資料分析做一些介紹。

3.1 讀取所有表中的職業

# 讀取所有表中的職業(pros.xlsx中有所有職業)

pros_path =

'professions/pros.xlsx'

df = pd.read_excel(pros_path, header=

none

)# 獲取第一列並轉化為列表

3.2 資料處理

for

file

in filenames:

# all excel

data = pd.read_excel(root_path + os.sep +

dir+ os.sep +

file

, header=

none

)# 從第四行開始為有效資料

data = data[3:

][1:

]# 由於後續要根據職業名稱查詢,所以此處需要將第一列作為索引

data.set_index(1)

csv_columns =

[dir

+ os.sep +

file

.strip(

).split(

'.')[0

]]

在一張表中不可能所有的資訊都是我們所關注的,所以我們需要進行篩選,其中data = data[3:][1:]表明我們選取第四行、第一列之後的所有資料。注意:此操作之後索引並沒有改變。

經過處理之後,看看生成的各類職業檔案:

3.3 資料視覺化

上一步提取出我們需要的檔案後,接下來當然需要將資料進行視覺化。我們統計兩個指標:

1)第二列隨時間變化曲線

2)第三列至第十列之和隨時間變化曲線

專案原始碼:

資料分析學習 使用Pandas進行資料分析

在對資料進行分析時,首先需要了解相關的名詞在該行業裡的含義,即查閱相關知識對題目進行整體把握。下面是進行資料分析的步驟 1 讀取資料 import pandas as pd data pd.read csv data train.csv 2 對資料進行預處理 具體包括 1 剔除空白值超過一半的列 h...

利用Python進行資料分析 Pandas 4

層次化索引 hierarchical indexing 是pandas的一項重要功能,它使你能在乙個軸上擁有多個 兩個以上 索引級別。抽象點說,它使你能以低維度形式處理高維度資料。我們先來看乙個簡單的例子 建立乙個series,並用乙個由列表或陣列組成的列表作為索引。from pandas impo...

利用python進行資料分析pandas 字串

coding utf 8 created on mon oct 28 17 30 22 2019 author weiping val a,b gudd tt val.split pp x.strip for x in val.split pp 字串連線 a,b,c,d pp a b c d 字串可...