最近參加了一次apmcm,題目給出了很多**,我們需要對資料進行分析。顯然,作為一名會python的大學生,肯定不會直接在**上進行各種變動,本文就如何使用pandas對excel**進行資料分析做一些介紹。
3.1 讀取所有表中的職業
# 讀取所有表中的職業(pros.xlsx中有所有職業)
pros_path =
'professions/pros.xlsx'
df = pd.read_excel(pros_path, header=
none
)# 獲取第一列並轉化為列表
3.2 資料處理
for
file
in filenames:
# all excel
data = pd.read_excel(root_path + os.sep +
dir+ os.sep +
file
, header=
none
)# 從第四行開始為有效資料
data = data[3:
][1:
]# 由於後續要根據職業名稱查詢,所以此處需要將第一列作為索引
data.set_index(1)
csv_columns =
[dir
+ os.sep +
file
.strip(
).split(
'.')[0
]]
在一張表中不可能所有的資訊都是我們所關注的,所以我們需要進行篩選,其中data = data[3:][1:]表明我們選取第四行、第一列之後的所有資料。注意:此操作之後索引並沒有改變。
經過處理之後,看看生成的各類職業檔案:
3.3 資料視覺化
上一步提取出我們需要的檔案後,接下來當然需要將資料進行視覺化。我們統計兩個指標:
1)第二列隨時間變化曲線
2)第三列至第十列之和隨時間變化曲線
專案原始碼:
資料分析學習 使用Pandas進行資料分析
在對資料進行分析時,首先需要了解相關的名詞在該行業裡的含義,即查閱相關知識對題目進行整體把握。下面是進行資料分析的步驟 1 讀取資料 import pandas as pd data pd.read csv data train.csv 2 對資料進行預處理 具體包括 1 剔除空白值超過一半的列 h...
利用Python進行資料分析 Pandas 4
層次化索引 hierarchical indexing 是pandas的一項重要功能,它使你能在乙個軸上擁有多個 兩個以上 索引級別。抽象點說,它使你能以低維度形式處理高維度資料。我們先來看乙個簡單的例子 建立乙個series,並用乙個由列表或陣列組成的列表作為索引。from pandas impo...
利用python進行資料分析pandas 字串
coding utf 8 created on mon oct 28 17 30 22 2019 author weiping val a,b gudd tt val.split pp x.strip for x in val.split pp 字串連線 a,b,c,d pp a b c d 字串可...