python3 -m pip install pdfminer3k2、通過python3 setup.py install
處理pdf檔案的思路:
pdf 讀成字串,然後用stringio 轉換成檔案物件
例項:
1from urllib.request import
urlopen
2from io import
stringio
3from pdfminer.pdfinterp import
pdfresourcemanager, process_pdf
4from pdfminer.converter import
textconverter
5from pdfminer.layout import
laparams67
defreadpdf(pdffile):
8 rsrcmgr =pdfresourcemanager()
9 retstr =stringio()
10 laparams =laparams()
11 device = textconverter(rsrcmgr, retstr, laparams=laparams)
1213
process_pdf(rsrcmgr, device, pdffile)
14device.close()
1516 content =retstr.getvalue()
17retstr.close()
18return
content
1920 pdffile = urlopen("
")21 outputstring =readpdf(pdffile)
22print
(outputstring)
23 pdffile.close()
readpdf 函式最大的好處是,如果你的pdf 檔案在電腦裡,你就可以直接把urlopen 返回的物件pdffile 替換成普通的open() 檔案物件:
pdffile = open("
../pages/warandpeace/chapter1.pdf
", 'rb'
)輸出結果可能不是很完美,尤其是當pdf 裡有、各種各樣的文字格式,或者帶有**
和資料圖的時候。但是,對大多數只包含純文字內容的pdf 而言,其輸出結果與純文字格
式基本沒什麼區別。
爬蟲學習之csv讀取和儲存
該讀取主要使用到csv裡面的reader dictreader 方法,和引用io裡面的stringio進行對字串進行封裝 在處理網上的csv檔案方式主要是有一下幾方面 從網上直接把檔案讀成乙個字串,然後轉換成乙個stringio 物件,使它具有檔案的 屬性。最優處理方案 雖然前兩個方法也可以用,但是...
python 爬蟲 csv文件的儲存和讀取
判斷目錄,有則開啟,沒有新建 import csv import os 判斷目錄,有則開啟,沒有新建 if os.path.exists d python 資料爬取 os.chdir d python 資料爬取 else os.mkdir d python 資料爬取 os.chdir d pytho...
iOS讀取和顯示PDF文件
本文只說明自定義uiview的方法。實現的在ipad模擬器上的效果 的 部分 void mydisplaypdfpage cgcontextref mycontext,size t pagenumber,const char filename 可見,編寫讀取的 很簡單,只需給定三個引數即可。後兩個很...