1,引言
晚上翻看《python網路資料採集》這本書,看到讀取pdf內容的**,想起來前幾天
集搜客剛剛發布了乙個
抓取網頁pdf內容的抓取規則
,這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力,能夠把pdf格式轉換成html標籤,比如,div之類的標籤,從而用gooseeker網頁抓取軟體像抓普通網頁一樣抓取結構化內容。
從而產生了乙個問題:用python爬蟲的話,能做到什麼程度。下面將講述乙個實驗過程和源**。
2,把pdf轉換成文字的python源**
下面的python源**,讀取pdf檔案內容(網際網路上的或是本地的),轉換成文字,列印出來。這段**主要用了乙個第三方庫
pdfminer3k
from urllib.request import urlopen
from pdfminer.pdfinterp import pdfresourcemanager, process_pdf
from pdfminer.converter import textconverter
from pdfminer.layout import laparams
from io import stringio
from io import open
def readpdf(pdffile):
rsrcmgr = pdfresourcemanager()
retstr = stringio()
laparams = laparams()
device = textconverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdffile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdffile = urlopen("")
outputstring = readpdf(pdffile)
print(outputstring)
pdffile.close()
如果pdf檔案在你的電腦裡,那就把urlopen返回的物件pdffile替換成普通的open()檔案物件。
3,展望
這個實驗只是把pdf轉換成了文字,但是沒有像開頭所說的轉換成html標籤,那麼在python程式設計環境下是否有這個能力,留待今後探索。
1. gooseeker開源python網路爬蟲github源
5,文件修改歷史
2016-05-26:v2.0,增補文字說明
2016-05-29:v2.1,
讀取Doc或PDF檔案內容
下面的方法,讀出來 的內容是json格式 的,具體 內容,需要分析一下json的內容,看看哪部分資料是你想要的,注意靈活運用哦。方法如下 第一步,讀取檔案流,最終 轉換成base64string var filestream new filestream item.fullname,filemode...
python讀取pdf檔案
pdfplumber是乙個可以處理pdf格式資訊的庫。可以查詢關於每個文字字元 矩陣 和行的詳細資訊,也可以對 進行提取並進行視覺化除錯。文件參考 安裝直接採用pip即可。命令列中輸入 pip install pdfplumber import pdfplumber with pdfplumber....
python讀取pdf文件 實戰
coding utf 8 讀取pdf文件 from pdfminer.converter import pdfpageaggregator from pdfminer.layout import laparams from pdfminer.pdfparser import pdfparser,pd...