python抓取處理word文件

2021-09-27 08:34:56 字數 732 閱讀 1256

前面一篇講到了處理pdf的內容,今天說下python對word的處理。其實python對word文件的支援不夠。

為讀取docx內容,可以使用以下方法:

(1)利用urlopen抓取遠端word docx檔案;

(2)將其轉換為記憶體位元組流;

(3)解壓縮(docx是壓縮後檔案);

(4)將解壓後檔案作為xml讀取

(5)尋找xml中的標籤(正文內容)並處理

下面是**,傳入url即可。

def wordtocontent(url):

wordfile = urlopen(url).read()

wordfile = bytesio(wordfile)

document = zipfile(wordfile) #

xml_content = document.read("word/document.xml")

wordobj = beautifulsoup(xml_content.decode("utf-8"), "lxml")

textstrings = wordobj.findall("w:t")

str_all = ''

for textelem in textstrings:

str_all = str_all + textelem.text

return str_all

注意這個只對.docx的文件有效老版本的.doc不行。

python 處理 word 文件

簡介 安裝pip install python docx pip install docxtpl docxtpl 庫會依賴jinja2 使用對應的主要python 大同小異,在py指令碼中將資料徹底處理好,render僅做簡單資料填充。from docxtpl import docxtemplate...

python 處理抓取網頁亂碼

相信用python的人一定在抓取網頁時,被編碼問題弄暈過一陣 前幾天寫了乙個測試網頁的小指令碼,並查詢是否包含指定的資訊。在html urllib2.open url read 時,列印到控制台始終出現亂碼。一般的解決辦法就是html.decode utf 8 encode gb2312 不過這個即...

利用WORD發布博文

怎樣用 word 管理網易部落格 部落格,相信這年頭,只要在對上網略知一二的人都會有幾個賬戶吧.今天在網易部落格上瀏覽時無意間發現了網易支援word寫部落格的功能,仔細檢視了一下說明,親自試了一試,成功了.現在把經驗寫出來給大家分享一下,希望能給大家帶來幫助.工具 原料 開啟開始選單,選擇micro...