環境:pycharm python3.7
#獲取文章全部內容
doc=docx.document('d:\\users\\administrator\\pycharmprojects\\bigdata\\detail\\a.docx')
一級標題
for p in doc.paragraphs:
if p.style.name=='heading 1':
print(p.text)
#二級標題
for p in doc.paragraphs:
if p.style.name=='heading 2':
print(p.text)
#所有標題
import re
for p in doc.paragraphs:
if re.match("^heading \d+$",p.style.name):
print(p.text)
#所有內容
for p in doc.paragraphs:
if p.style.name=='normal':
print(p.text)
#從前面可以看出,如果知道不同內容的style.name,那麼要讀這些內容是極其方便的,這些style.name可以通過:
#print(p.style.name)得到
for p in doc.paragraphs:
if p.style.name=='級別3:黑體 13磅 20行距 段落前後20 左對齊':
print(p.text)
#輸出對應內容
python獲取docx文件的內容 文字
簡單的說,docx裡面的每乙個段落都是乙個paragraph物件,段落中文字如果有不同的樣式 加粗,斜體 就會有不同的run物件,而且paragraph和run物件都有乙個text屬性,表示的是他包含的文字 import docx defgettext filename doc docx.docum...
Python讀取PDF內容
1,引言 晚上翻看 python網路資料採集 這本書,看到讀取pdf內容的 想起來前幾天 集搜客剛剛發布了乙個 抓取網頁pdf內容的抓取規則 這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力,能夠把pdf格式轉換成html標籤,比如,div之類的標籤,...
Python讀取Excel內容
xlsxwrite openpyxl xlrd xlwt microsoft excel,其差異大致如下 此次專案有個需求是前端頁面上傳乙份excel檔案,後端這邊將其內容讀取到,並存入資料庫中 大概有兩個點,接收上傳的檔案,讀取excel內容,存入資料庫中 2.1flask有個處理接收到的檔案的方...