爬蟲學習之pdf讀取和儲存

2022-03-19 15:07:35 字數 1274 閱讀 7409

python3 -m pip install pdfminer3k 

2、通過python3 setup.py install

處理pdf檔案的思路:

pdf 讀成字串,然後用stringio 轉換成檔案物件

例項:

1

from urllib.request import

urlopen

2from io import

stringio

3from pdfminer.pdfinterp import

pdfresourcemanager, process_pdf

4from pdfminer.converter import

textconverter

5from pdfminer.layout import

laparams67

defreadpdf(pdffile):

8 rsrcmgr =pdfresourcemanager()

9 retstr =stringio()

10 laparams =laparams()

11 device = textconverter(rsrcmgr, retstr, laparams=laparams)

1213

process_pdf(rsrcmgr, device, pdffile)

14device.close()

1516 content =retstr.getvalue()

17retstr.close()

18return

content

1920 pdffile = urlopen("

")21 outputstring =readpdf(pdffile)

22print

(outputstring)

23 pdffile.close()

readpdf 函式最大的好處是,如果你的pdf 檔案在電腦裡,你就可以直接把urlopen 返回

的物件pdffile 替換成普通的open() 檔案物件:

pdffile = open("

../pages/warandpeace/chapter1.pdf

", 'rb'

)輸出結果可能不是很完美,尤其是當pdf 裡有、各種各樣的文字格式,或者帶有**

和資料圖的時候。但是,對大多數只包含純文字內容的pdf 而言,其輸出結果與純文字格

式基本沒什麼區別。

爬蟲學習之csv讀取和儲存

該讀取主要使用到csv裡面的reader dictreader 方法,和引用io裡面的stringio進行對字串進行封裝 在處理網上的csv檔案方式主要是有一下幾方面 從網上直接把檔案讀成乙個字串,然後轉換成乙個stringio 物件,使它具有檔案的 屬性。最優處理方案 雖然前兩個方法也可以用,但是...

python 爬蟲 csv文件的儲存和讀取

判斷目錄,有則開啟,沒有新建 import csv import os 判斷目錄,有則開啟,沒有新建 if os.path.exists d python 資料爬取 os.chdir d python 資料爬取 else os.mkdir d python 資料爬取 os.chdir d pytho...

iOS讀取和顯示PDF文件

本文只說明自定義uiview的方法。實現的在ipad模擬器上的效果 的 部分 void mydisplaypdfpage cgcontextref mycontext,size t pagenumber,const char filename 可見,編寫讀取的 很簡單,只需給定三個引數即可。後兩個很...