Python讀取PDF內容

2021-07-12 00:24:35 字數 1390 閱讀 8656

1,引言

晚上翻看《python網路資料採集》這本書,看到讀取pdf內容的**,想起來前幾天

集搜客剛剛發布了乙個

抓取網頁pdf內容的抓取規則

,這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力,能夠把pdf格式轉換成html標籤,比如,div之類的標籤,從而用gooseeker網頁抓取軟體像抓普通網頁一樣抓取結構化內容。

從而產生了乙個問題:用python爬蟲的話,能做到什麼程度。下面將講述乙個實驗過程和源**。

2,把pdf轉換成文字的python源**

下面的python源**,讀取pdf檔案內容(網際網路上的或是本地的),轉換成文字,列印出來。這段**主要用了乙個第三方庫

pdfminer3k

from urllib.request import urlopen

from pdfminer.pdfinterp import pdfresourcemanager, process_pdf

from pdfminer.converter import textconverter

from pdfminer.layout import laparams

from io import stringio

from io import open

def readpdf(pdffile):

rsrcmgr = pdfresourcemanager()

retstr = stringio()

laparams = laparams()

device = textconverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdffile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdffile = urlopen("")

outputstring = readpdf(pdffile)

print(outputstring)

pdffile.close()

如果pdf檔案在你的電腦裡,那就把urlopen返回的物件pdffile替換成普通的open()檔案物件。

3,展望

這個實驗只是把pdf轉換成了文字,但是沒有像開頭所說的轉換成html標籤,那麼在python程式設計環境下是否有這個能力,留待今後探索。

1. gooseeker開源python網路爬蟲github源

5,文件修改歷史

2016-05-26:v2.0,增補文字說明

2016-05-29:v2.1,

讀取Doc或PDF檔案內容

下面的方法,讀出來 的內容是json格式 的,具體 內容,需要分析一下json的內容,看看哪部分資料是你想要的,注意靈活運用哦。方法如下 第一步,讀取檔案流,最終 轉換成base64string var filestream new filestream item.fullname,filemode...

python讀取pdf檔案

pdfplumber是乙個可以處理pdf格式資訊的庫。可以查詢關於每個文字字元 矩陣 和行的詳細資訊,也可以對 進行提取並進行視覺化除錯。文件參考 安裝直接採用pip即可。命令列中輸入 pip install pdfplumber import pdfplumber with pdfplumber....

python讀取pdf文件 實戰

coding utf 8 讀取pdf文件 from pdfminer.converter import pdfpageaggregator from pdfminer.layout import laparams from pdfminer.pdfparser import pdfparser,pd...