爬蟲學習之pdf讀取和儲存

python3 -m pip install pdfminer3k

2、通過python3 setup.py install

處理pdf檔案的思路：

pdf 讀成字串，然後用stringio 轉換成檔案物件

例項：

1
from urllib.request import
urlopen
2from io import
stringio
3from pdfminer.pdfinterp import
pdfresourcemanager, process_pdf
4from pdfminer.converter import
textconverter
5from pdfminer.layout import
laparams67
defreadpdf(pdffile):
8     rsrcmgr =pdfresourcemanager()
9     retstr =stringio()
10     laparams =laparams()
11     device = textconverter(rsrcmgr, retstr, laparams=laparams)
1213
process_pdf(rsrcmgr, device, pdffile)
14device.close()
1516     content =retstr.getvalue()
17retstr.close()
18return
content
1920 pdffile = urlopen("
")21 outputstring =readpdf(pdffile)
22print
(outputstring)
23 pdffile.close()

readpdf 函式最大的好處是，如果你的pdf 檔案在電腦裡，你就可以直接把urlopen 返回

的物件pdffile 替換成普通的open() 檔案物件：

pdffile = open("

../pages/warandpeace/chapter1.pdf

", 'rb'

)輸出結果可能不是很完美，尤其是當pdf 裡有、各種各樣的文字格式，或者帶有**

和資料圖的時候。但是，對大多數只包含純文字內容的pdf 而言，其輸出結果與純文字格

式基本沒什麼區別。

爬蟲學習之csv讀取和儲存

該讀取主要使用到csv裡面的reader dictreader 方法，和引用io裡面的stringio進行對字串進行封裝在處理網上的csv檔案方式主要是有一下幾方面從網上直接把檔案讀成乙個字串，然後轉換成乙個stringio 物件，使它具有檔案的屬性。最優處理方案雖然前兩個方法也可以用，但是...

python 爬蟲 csv文件的儲存和讀取

判斷目錄，有則開啟，沒有新建 import csv import os 判斷目錄，有則開啟，沒有新建 if os.path.exists d python 資料爬取 os.chdir d python 資料爬取 else os.mkdir d python 資料爬取 os.chdir d pytho...

iOS讀取和顯示PDF文件

本文只說明自定義uiview的方法。實現的在ipad模擬器上的效果的部分 void mydisplaypdfpage cgcontextref mycontext,size t pagenumber,const char filename 可見，編寫讀取的很簡單，只需給定三個引數即可。後兩個很...

爬蟲學習之pdf讀取和儲存

爬蟲學習之csv讀取和儲存

python 爬蟲 csv文件的儲存和讀取

iOS讀取和顯示PDF文件

相關推薦