本系列文章主要介紹利用python中的pandas工具包,實現excel的功能。目的是提高我們的資料處理的工作效率,實現重複性工作自動化的目標。各位看官可以作為參考。本問先介紹下pandas建立和讀取excel檔案的方法。
現在我想要在桌面建立乙個包含「id」和「name」兩個字段,名為test.xlsx的excel檔案,該如何操作呢?上**:
import pandas as pd
df=pd.dataframe(
)df.to_excel(r'c:\users\chih-cheng\desktop\測試\test.xlsx'
)print
('done!'
)
結果如下:
可以看到成功建立乙個test.xlsx檔案,並在檔案裡新增了兩個字段。
細心的同學可能發現了,檔案裡自動生成了一列索引,如果我們不想顯示,就需要重新設定索引列,我們可以將』id』字段設定為索引列,只需在上述**中加入一行,利用.set_index方法:
df=pd.dataframe(
)df=df.set_index(
'id'
,inpalce=
true
)df.to_excel(r'c:\users\chih-cheng\desktop\測試\test.xlsx'
)
結果如下:
成功將「id」字段設定為索引列。
現在我們要讀取乙個名為「測試.xlsx」的檔案,資料結構如下截圖:
我們可以使用read_excel()方法,來看下**如何實現:
df=pd.read_excel(r'c:\users\chih-cheng\desktop\測試\測試.xlsx'
)print
(df.shape)
#檢視資料形狀
print
(df.columns)
#檢視列欄位名
print
('---------'
)print
(df.head())
#檢視前五行
print
('---------'
)print
(df.tail())
#檢視末尾五行
執行結果如下:
可以看到,我們不僅可以讀取檔案,還可以使用一些pandas內建的方法來檢視資料結構,讀取的**檔案是乙個20行,5列的資料格式,共有五個字段,名稱如上圖所示。
這就結束了嗎?no,no,no,有很多時候,我們的資料來源並不像我們想象中的那麼「完美」,這些資料我們可以稱為「髒資料」,在匯入髒資料的時候,我們需要注意一些細節問題,有哪些髒資料呢,下面列舉一些特殊情況,大家可以舉一反三:
df=pd.read_excel(r'c:\users\chih-cheng\desktop\測試\測試.xlsx'
,header=
1)
df=pd.read_excel(r'c:\users\chih-cheng\desktop\測試\測試.xlsx'
,header=
none
)df.columns=
['id'
,'type'
,'firstname'
,'middlename'
,'lastname'
]print
(df.columns)
df.to_excel(r'c:\users\chih-cheng\desktop\測試\測試.xlsx'
)
好啦,簡單的建立讀取檔案其實也有很多門道,當然,本人水平有限,如有疏忽遺漏之處,感謝指正。下次會介紹pandas的更多功能。 Python 操作Excel檔案
from openpyxl import load workbook 開啟excel檔案 wb load workbook test.xlsx 定位第乙個sheet sheet wb sheet1 獲取第1行第1列的單元格的值 print 第1行第1列的單元格的值 format sheet.cell...
python對excel的操作
一 安裝xlrd模組 二 使用介紹 1 匯入模組 import xlrd 2 開啟excel檔案讀取資料 data xlrd.open workbook excelfile.xls 3 使用技巧 獲取乙個工作表 table data.sheets 0 通過索引順序獲取 table data.shee...
Python 對Excel操作讀寫
最近公司專案需要寫大量的測試案例,分析案例時發現,案例的前提條件是可以互相排列組合的,人工操作太過繁瑣,可以考慮使用python來實現自動生成案例xlwt xlrd xlutils pip install xlutils 安裝xlutils模組,聯網狀態下cmd直接輸入pip install xlu...