#匯入系統庫
import sys
import importlib
#對importlib做處理,讓其載入sys
importlib.reload(sys)
from pdfminer.pdfparser import pdfparser,pdfdocument
from pdfminer.pdfinterp import pdfresourcemanager,pdfpageinterpreter#直譯器
from pdfminer.converter import pdfpageaggregator#轉換器
from pdfminer.layout import lttextboxhorizontal,laparams #布局
from pdfminer.pdfinterp import pdftextextractionnotallowed #是否允許pdf和text轉換
#將pat**件中的內容讀取到topat**件中
def readpdf(path, topath):
#以二進位制的形式開啟pdf檔案
f = open(path, 'rb')
#建立乙個pdf文件分析器
parser = pdfparser(f)
#建立pdf文件
pdffile = pdfdocument()
#獲取連線分析器
parser.set_document(pdffile)
#獲取文件物件
pdffile.initialize()
#檢測文件是否提供txt轉換
if not pdffile.is_extractable:
#不允許轉換
raise pdftextextractionnotallowed
else:
#解析資料
#資料管理器
manger = pdfresourcemanger()
#建立乙個pdf裝置物件
laparams = pdfpageaggregator(manager,laparams=laparams)
#直譯器物件
interpreter = pdfpageinterpreter(manger,device)
#開始迴圈處理,每次處理一頁
for page in pdffile.get_pages():
interpreter.process_page(page)
layout = device.get_result()
for x in layout:
if(isinstance(x, lttextboxhorizontal)):
with open(topath, 'a') as f:
str1 = x.get_text()
#print(str)
f.writer(str1 + "\n")
path = r"c:\users\xlg\desktop\001.pdf"
topath = r"c:\users\xlg\desktop\001.pdf"
readpdf(path,topath)
python讀取pdf檔案獲取pdf的文字內容
python處理pdf檔案的所有庫 import pypdf2 from urllib.request import urlopen file open d ltn20190716133.pdf rb filereader pypdf2.pdffilereader file pdf page num...
python讀取pdf中的文字
python處理pdf也是常用的技術了,對於python3來說,pdfminer3k是乙個非常好的工具。pip install pdfminer3k首先,為了滿足大部分人的需求,我先給乙個通用一點的指令碼來讀取pdf中的文字 from io import stringio from io impor...
Python讀取PDF內容
1,引言 晚上翻看 python網路資料採集 這本書,看到讀取pdf內容的 想起來前幾天 集搜客剛剛發布了乙個 抓取網頁pdf內容的抓取規則 這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力,能夠把pdf格式轉換成html標籤,比如,div之類的標籤,...