python讀取docx內容

環境：pycharm python3.7

#獲取文章全部內容

doc=docx.document('d:\\users\\administrator\\pycharmprojects\\bigdata\\detail\\a.docx')

一級標題

for p in doc.paragraphs:

if p.style.name=='heading 1':

print(p.text)

#二級標題

for p in doc.paragraphs:

if p.style.name=='heading 2':

print(p.text)

#所有標題

import re

for p in doc.paragraphs:

if re.match("^heading \d+$",p.style.name):

print(p.text)

#所有內容

for p in doc.paragraphs:

if p.style.name=='normal':

print(p.text)

#從前面可以看出，如果知道不同內容的style.name，那麼要讀這些內容是極其方便的，這些style.name可以通過：

#print(p.style.name)得到

for p in doc.paragraphs:

if p.style.name=='級別3：黑體 13磅 20行距段落前後20 左對齊':

print(p.text)

#輸出對應內容

python獲取docx文件的內容文字

簡單的說,docx裡面的每乙個段落都是乙個paragraph物件,段落中文字如果有不同的樣式加粗，斜體就會有不同的run物件,而且paragraph和run物件都有乙個text屬性，表示的是他包含的文字 import docx defgettext filename doc docx.docum...

Python讀取PDF內容

1，引言晚上翻看 python網路資料採集這本書，看到讀取pdf內容的想起來前幾天集搜客剛剛發布了乙個抓取網頁pdf內容的抓取規則這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力，能夠把pdf格式轉換成html標籤，比如，div之類的標籤，...

Python讀取Excel內容

xlsxwrite openpyxl xlrd xlwt microsoft excel,其差異大致如下此次專案有個需求是前端頁面上傳乙份excel檔案，後端這邊將其內容讀取到，並存入資料庫中大概有兩個點，接收上傳的檔案，讀取excel內容，存入資料庫中 2.1flask有個處理接收到的檔案的方...

python讀取docx內容

python獲取docx文件的內容 文字

Python讀取PDF內容

Python讀取Excel內容

相關推薦

python獲取docx文件的內容文字