胡兄今天早上突然問我會不會把pdf拆開和合併,原來是ren老師要提交文獻列表之類的東西…我本著偷懶便捷的辦法開啟了搜尋引擎,了解了一下相關軟體,emmmmmmmmm,結果不是讓付費就是2m以上檔案不讓開啟,反正就是辣雞的不行。
早就知道python有個庫pypdf2可以簡單處理這些了…那就pip一下給他處理了
這個需求比較簡單,把乙個pdf的首頁末頁成另乙個pdf的封皮和末頁
from pypdf2 import pdffilereader, pdffilewriter
被拆開的叫
檢索結果掃瞄2021.3.8.pdf
被合併的叫
./近五年3-8.pdf
定義兩個函式
#拆開
defsplit
(path, name_of_split)
: pdf = pdffilereader(path)
for page in
range
(pdf.getnumpages())
: pdf_writer = pdffilewriter(
) pdf_writer.addpage(pdf.getpage(page)
) output = f'.pdf'
with
open
(output,
'wb'
)as output_pdf:
pdf_writer.write(output_pdf)
#合併def
merge_pdfs
(paths, output)
: pdf_writer = pdffilewriter(
)for path in paths:
pdf_reader = pdffilereader(path)
for page in
range
(pdf_reader.getnumpages())
:# 把每張pdf頁面加入到這個可讀取物件中
pdf_writer.addpage(pdf_reader.getpage(page)
)# 把這個已合併了的pdf文件儲存起來
with
open
(output,
'wb'
)as out:
pdf_writer.write(out)
然後直接使用
path = r'./檢索結果掃瞄2021.3.8.pdf'
split(path,
'拆開'
)paths =
['./拆開0.pdf'
,'./近五年3-8.pdf'
,'./拆開1.pdf'
]merge_pdfs(paths, output=
'hml要的.pdf'
)
檔案都在.ipynb同目錄下,檢查檔案符合要求。 Python處理pdf檔案的包
分類 python 2012 06 08 12 09 33人閱讀收藏 舉報 reportlab 強大的生成pdf檔案的庫。主頁 主要功能 pdfminer 主要用於分析pdf文字內容的工具。主頁 主要功能 簡單講,如果只折騰現成的pdf檔案,用pypdf,如果要生成新內容的pdf檔案用reportl...
python讀取pdf檔案獲取pdf的文字內容
python處理pdf檔案的所有庫 import pypdf2 from urllib.request import urlopen file open d ltn20190716133.pdf rb filereader pypdf2.pdffilereader file pdf page num...
python讀取pdf檔案
pdfplumber是乙個可以處理pdf格式資訊的庫。可以查詢關於每個文字字元 矩陣 和行的詳細資訊,也可以對 進行提取並進行視覺化除錯。文件參考 安裝直接採用pip即可。命令列中輸入 pip install pdfplumber import pdfplumber with pdfplumber....