Selenium儲存網頁為mhtml方法

2022-04-07 19:03:50 字數 556 閱讀 6630

mhtml即mime html,歸檔網頁,將樣式和指令碼全部整合到乙個檔案中。

chrome devtools protcal api中包含了page.capturesnapshot方法,可以獲取到網頁的mhtml格式內容。

我們使用selenium的driver.execute_cdp_cmd()執行該命令後,將結果寫入檔案即可,示例**如下。

from selenium import webdriver

driver = webdriver.chrome()

driver.get('')

# 1. 執行 chome 開發工具命令,得到mhtml內容

res = driver.execute_cdp_cmd('page.capturesnapshot', {})

# 2. 寫入檔案

f.write(res['data'])

driver.quit()

儲存結果,如下圖,可以使用瀏覽器開啟。

更多的cdp方法可以參考 (chrome-devtools-protocol)[

儲存網頁為PDF

最近在做乙個專案,需要爬取乙個系統的所有 動態 頁面,並將每個網頁都存為乙個pdf檔案。由於是內部系統,沒有反爬,所以爬蟲編寫並不複雜,儲存網頁支援python的工具搜了下,主要有兩個 1,pdfkit,基於wkhtmlpdf,後者是c語言編寫的 2,weasyprint,好像是乙個純python的...

selenium網頁操作 選擇

selenium網頁操作 選擇 coding utf 8 from selenium import webdriver import time from selenium.webdriver.common.action chains import actionchains 滑鼠from seleni...

使用Chrome儲存網頁為mht檔案

一直在使用chrome瀏覽器,但由於需要將部分網頁儲存為mht檔案,卻發現chrome預設不支援。chrome瀏覽器預設支援2種 單獨的html檔案,全部 在 chrome 位址列中鍵入 chrome flags 回車,這是乙個 chrome 的功能配置頁面,專案比較多,我們通過 ctrl f 來搜...