爬蟲抓取自己csdn部落格點讚數

2021-08-24 23:42:12 字數 1507 閱讀 8168

檢視自己文章的點讚數、瀏覽量。。。

import requests, re, math

url =

''r = requests.get(url, headers=

).text

articles = re.search(

'(\d+)\s+原創'

, r)

.group(1)

pages =

int(math.ceil(

int(articles)/20

))article_urls =

for page in

range(1

, pages +1)

: page_url =

''% page

rp = requests.get(page_url, headers=

).text

article_urls.extend(re.findall(

'\s+'

, rp)

)print

(len

(article_urls)

, article_urls)

# 解析文章

from selenium import webdriver

from selenium.webdriver.support.ui import webdriverwait

from selenium.webdriver.firefox.options import options # 火狐瀏覽器設定

firefox_option = options(

)firefox_option.set_headless(

)# 設定瀏覽器為【無頭】

driver = webdriver.firefox(firefox_options=firefox_option)

wait = webdriverwait(driver,9)

# 顯式等待,設定timeout

for article_url in article_urls:

driver.get(article_url)

title = driver.find_element_by_css_selector(

'html body div#mainbox.container.clearfix main div.blog-content-box div.article-header-box div.article-header div.article-title-box h1.title-article'

).text

'.long-height > p:nth-child(4)'

).text

pv = driver.find_element_by_css_selector(

'.read-count'

).text

print

' | '

)driver.close(

)注意:程式執行後,要清理關閉失敗的無頭瀏覽器

爬取自己的csdn目錄

csdn目錄的分頁 後面是幾就是幾個分頁,簡單點,直接遍歷增加就好了,導包就不細說了 解析html org.jsoup groupid jsoup artifactid 1.11 3 version dependency fr.opensagres.xdocreport groupid fr.ope...

爬蟲入門(一)爬自己的CSDN部落格

今天本來在搞人體識別模型的,emmm後來想搞一直想試的爬蟲,於是我就來了!我是用的軟體是pycharm,這個軟體是jetbrains開發的,我最近使用的連線資料庫的軟體datagrip也是jetbrains公司了,只不過我認為datagrip對新使用者不太友好,很多功能都隱藏起來了,還要你自己去發現...

csdn部落格爬蟲更新

幾天沒上csdn部落格,不知道為什麼給我csdn首頁改了,不是以前的網頁布局了,所以之前寫的csdn部落格爬蟲也就宣告失效,所以今天修改了下之前寫的xpath爬蟲,正則爬蟲就沒改了,改的有點麻煩 coding gbk import sys import requests import re from...