Google爬蟲利器 puppeteer

2021-09-24 07:35:23 字數 795 閱讀 7025

const puppeteer = require('puppeteer')

const url = ''

const sleep = time => )

}!(async () => );

// 開啟乙個空白頁面

console.log('開啟空白頁面');

const page = await browser.newpage();

// 輸入 url

console.log('輸入url');

await page.goto(url,);

// 等待3秒鐘

console.log('等待3秒鐘');

await sleep(3000)

// 等待 選擇器對應的元素 出現在 page 上

console.log('等待 選擇器對應的元素 出現在 page 上');

await page.waitforselector('.more')

for(let i = 0; i <= 1; i++)

// 評估頁面

const result = await page.evaluate(() => )

}return links

})browser.close();

console.log(result);

})();

複製**

1 載入更多 是乙個a標籤 class="more"

2 .list-wrap包裹著所有電影預告,我們要獲取四個內容 id,海報封面位址,電影名,評分

xpath 爬蟲利器

用xpath的爬取網頁內容的初步了解 xpath提取文字內容 text 提取屬性內容 coding utf 8 author zjp from lxml import etree import requests url response1 requests.get url 獲取網頁響應 select...

爬蟲利器初體驗

scrapy 資料流 scrapy 元件 爬取豆瓣電影 top250 前言為什麼要學 scrapy 呢?看下圖,就清楚了。很多招聘要求都有 scrapy,主要是因為 scrapy 確實很強。那到底強在 呢?請在文中找答案。scrapy 資料流 首先我們先來學習一下 scrapy 的工作流程。scra...

Python 爬蟲利器 Selenium

前面幾節,我們學習了用 requests 構造頁面請求來爬取靜態網頁中的資訊以及通過 requests 構造 ajax 請求直接獲取返回的 json 資訊。還記得前幾節,我們在構造請求時會給請求加上瀏覽器 headers,目的就是為了讓我們的請求模擬瀏覽器的行為,防止被 的反爬蟲策略限制。今天要介紹...