mhtml即mime html,歸檔網頁,將樣式和指令碼全部整合到乙個檔案中。
chrome devtools protcal api中包含了page.capturesnapshot方法,可以獲取到網頁的mhtml格式內容。
我們使用selenium的driver.execute_cdp_cmd()執行該命令後,將結果寫入檔案即可,示例**如下。
from selenium import webdriver
driver = webdriver.chrome()
driver.get('')
# 1. 執行 chome 開發工具命令,得到mhtml內容
res = driver.execute_cdp_cmd('page.capturesnapshot', {})
# 2. 寫入檔案
f.write(res['data'])
driver.quit()
儲存結果,如下圖,可以使用瀏覽器開啟。
更多的cdp方法可以參考 (chrome-devtools-protocol)[
儲存網頁為PDF
最近在做乙個專案,需要爬取乙個系統的所有 動態 頁面,並將每個網頁都存為乙個pdf檔案。由於是內部系統,沒有反爬,所以爬蟲編寫並不複雜,儲存網頁支援python的工具搜了下,主要有兩個 1,pdfkit,基於wkhtmlpdf,後者是c語言編寫的 2,weasyprint,好像是乙個純python的...
selenium網頁操作 選擇
selenium網頁操作 選擇 coding utf 8 from selenium import webdriver import time from selenium.webdriver.common.action chains import actionchains 滑鼠from seleni...
使用Chrome儲存網頁為mht檔案
一直在使用chrome瀏覽器,但由於需要將部分網頁儲存為mht檔案,卻發現chrome預設不支援。chrome瀏覽器預設支援2種 單獨的html檔案,全部 在 chrome 位址列中鍵入 chrome flags 回車,這是乙個 chrome 的功能配置頁面,專案比較多,我們通過 ctrl f 來搜...