首先要安裝庫:pdfminer3k
from pdfminer.converter import pdfpageaggregator
from pdfminer.layout import laparams
from pdfminer.pdfparser import pdfparser, pdfdocument
from pdfminer.pdfinterp import pdfresourcemanager, pdfpageinterpreter
from urllib.request import urlopen
#獲取文件
#fp=urlopen("")
fp=open("naacl06-shinyama.pdf","rb")
#建立乙個與文件關聯的直譯器
parser=pdfparser(fp)
#pdf文件的物件
doc=pdfdocument()
#鏈結直譯器和文件
parser.set_document(doc)
doc.set_parser(parser)
#初始化文件
doc.initialize("")
#建立pdf資源管理器
resource=pdfresourcemanager()
#引數分析器
laparam=laparams()
#建立乙個聚合器
device=pdfpageaggregator(resource,laparams=laparam)
#建立pdf頁面直譯器
interpreter=pdfpageinterpreter(resource,device)
#使用文件物件得到頁面的集合
for page in doc.get_pages():
#使用頁面直譯器來讀取,儲存到聚合器中
interpreter.process_page(page)
#使用聚合器來讀取的內容
layout=device.get_result()
for out
in layout:
#判斷out是否有get_text屬性
python讀取pdf文件 實戰
coding utf 8 讀取pdf文件 from pdfminer.converter import pdfpageaggregator from pdfminer.layout import laparams from pdfminer.pdfparser import pdfparser,pd...
讀取PDF文件
coding utf 8 匯入開發包 frompdfminer.pdfparserimportpdfparser,pdfdocument frompdfminer.pdfinterpimportpdfresourcemanager,pdfpageinterpreter frompdfminer.pd...
c 讀取pdf文件
2.解壓pdfbox,專案中新增存在解壓後bin目錄下的dll檔案 ikvm.gnu.classpath.dll ikvm.runtime.dll fontbox 0.1.0 dev.dll pdfbox 0.7.3.dll 3.檔案中引入2個命名空間 using org.pdfbox.pdmode...