Python讀取PDF內容

1，引言

晚上翻看《python網路資料採集》這本書，看到讀取pdf內容的**，想起來前幾天

集搜客剛剛發布了乙個

抓取網頁pdf內容的抓取規則

，這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力，能夠把pdf格式轉換成html標籤，比如，div之類的標籤，從而用gooseeker網頁抓取軟體像抓普通網頁一樣抓取結構化內容。

從而產生了乙個問題：用python爬蟲的話，能做到什麼程度。下面將講述乙個實驗過程和源**。

2，把pdf轉換成文字的python源**

下面的python源**，讀取pdf檔案內容(網際網路上的或是本地的)，轉換成文字，列印出來。這段**主要用了乙個第三方庫

pdfminer3k

from urllib.request import urlopen
from pdfminer.pdfinterp import pdfresourcemanager, process_pdf
from pdfminer.converter import textconverter
from pdfminer.layout import laparams
from io import stringio
from io import open
def readpdf(pdffile):
rsrcmgr = pdfresourcemanager()
retstr = stringio()
laparams = laparams()
device = textconverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdffile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdffile = urlopen("")
outputstring = readpdf(pdffile)
print(outputstring)
pdffile.close()

如果pdf檔案在你的電腦裡，那就把urlopen返回的物件pdffile替換成普通的open()檔案物件。

3，展望

這個實驗只是把pdf轉換成了文字，但是沒有像開頭所說的轉換成html標籤，那麼在python程式設計環境下是否有這個能力，留待今後探索。

1. gooseeker開源python網路爬蟲github源

5，文件修改歷史

2016-05-26：v2.0，增補文字說明

2016-05-29：v2.1，

讀取Doc或PDF檔案內容

下面的方法，讀出來的內容是json格式的，具體內容，需要分析一下json的內容，看看哪部分資料是你想要的，注意靈活運用哦。方法如下第一步，讀取檔案流，最終轉換成base64string var filestream new filestream item.fullname,filemode...

python讀取pdf檔案

pdfplumber是乙個可以處理pdf格式資訊的庫。可以查詢關於每個文字字元矩陣和行的詳細資訊，也可以對進行提取並進行視覺化除錯。文件參考安裝直接採用pip即可。命令列中輸入 pip install pdfplumber import pdfplumber with pdfplumber....

python讀取pdf文件實戰

coding utf 8 讀取pdf文件 from pdfminer.converter import pdfpageaggregator from pdfminer.layout import laparams from pdfminer.pdfparser import pdfparser,pd...

Python讀取PDF內容

讀取Doc或PDF檔案內容

python讀取pdf檔案

python讀取pdf文件 實戰

相關推薦

python讀取pdf文件實戰