"""
用途:將乙個 pdf 檔案按頁拆分為多個 pdf 檔案
注意事項:若報錯 modulenotfounderror: no module named 'pypdf2'
則需要先安裝該模組。使用命令 「pip install pypdf2」 安裝即可
"""import pypdf2 # 需要先安裝:pip/pip3 install pypdf2
import os
root = r'c:\users\liujieru\documents\pdf'
# 原始檔所在的絕對路徑
file_path = os.path.join(root,
'組合.pdf'
)pdf_file =
open
(file_path,
'rb'
)# 獲取原 pdf 檔案
pdf_reader = pypdf2.pdffilereader(pdf_file)
# 建立 pdf 物件
source_name = pdf_file.name # 獲取原始檔名稱,包含絕對路徑
pdf_writer = pypdf2.pdffilewriter(
)# 建立乙個空白 pdf 物件
for page_num in
range
(pdf_reader.numpages)
:# 將每頁內容分別寫入乙個新檔案
page_obj = pdf_reader.getpage(page_num)
pdf_writer.addpage(page_obj)
# 向空白 pdf 物件中新增要複製的 pdf頁面
new_name = source_name[:-
4]+str
(page_num)
+".pdf"
pdf_new_file =
open
(new_name,
'wb'
)# 建立乙個新檔案
pdf_writer.write(pdf_new_file)
# 將新增了內容的空白 pdf 物件,寫入到新建檔案中
pdf_new_file.close(
) pdf_writer.__init__(
)# 將 pdf 物件初始化
pdf_file.close(
)
使用Python將HTML轉成PDF
主要使用的是wkhtmltopdf的python封裝 pdfkit 1.install python pdfkit pip install pdfkit2.install wkhtmltopdf sudo apt get install wkhtmltopdfsudo yum intsall wkh...
python3 將pdf檔案轉為text
pdf檔案儘管可以用python提取文字,但存在加密的情況,那種pdf就是解析不了的。另外pdf更類似於,所以即使可以用python提取,結果也容易有問題。所以效果不敢保證。在python3中解析pdf一般用pdfminer3k,就是pdfminer的python3版本。直接pip安裝即可 pip ...
使用python為pdf檔案新增書籤
pdf巢狀書籤編輯方法 1.匯入pypdf2的模組包 2.addbookmark是向pdf物件中新增書籤的函式,第乙個引數為書簽名,第二個引數為書籤指向的頁數,第三個引數為父書籤 還有其它的引數具體請查閱資料 addbookmark函式會返回乙個書籤物件,因此 可在新增完父書籤後儲存返回的標籤物件,...