檢視自己文章的點讚數、瀏覽量。。。
import requests, re, math
url =
''r = requests.get(url, headers=
).text
articles = re.search(
'(\d+)\s+原創'
, r)
.group(1)
pages =
int(math.ceil(
int(articles)/20
))article_urls =
for page in
range(1
, pages +1)
: page_url =
''% page
rp = requests.get(page_url, headers=
).text
article_urls.extend(re.findall(
'\s+'
, rp)
(len
(article_urls)
, article_urls)
# 解析文章
from selenium import webdriver
from selenium.webdriver.support.ui import webdriverwait
from selenium.webdriver.firefox.options import options # 火狐瀏覽器設定
firefox_option = options(
)firefox_option.set_headless(
)# 設定瀏覽器為【無頭】
driver = webdriver.firefox(firefox_options=firefox_option)
wait = webdriverwait(driver,9)
# 顯式等待,設定timeout
for article_url in article_urls:
driver.get(article_url)
title = driver.find_element_by_css_selector(
'html body div#mainbox.container.clearfix main div.blog-content-box div.article-header-box div.article-header div.article-title-box h1.title-article'
).text
'.long-height > p:nth-child(4)'
).text
pv = driver.find_element_by_css_selector(
'.read-count'
).text
' | '
)driver.close(
)注意:程式執行後,要清理關閉失敗的無頭瀏覽器
爬取自己的csdn目錄
csdn目錄的分頁 後面是幾就是幾個分頁,簡單點,直接遍歷增加就好了,導包就不細說了 解析html org.jsoup groupid jsoup artifactid 1.11 3 version dependency fr.opensagres.xdocreport groupid fr.ope...
爬蟲入門(一)爬自己的CSDN部落格
今天本來在搞人體識別模型的,emmm後來想搞一直想試的爬蟲,於是我就來了!我是用的軟體是pycharm,這個軟體是jetbrains開發的,我最近使用的連線資料庫的軟體datagrip也是jetbrains公司了,只不過我認為datagrip對新使用者不太友好,很多功能都隱藏起來了,還要你自己去發現...
csdn部落格爬蟲更新
幾天沒上csdn部落格,不知道為什麼給我csdn首頁改了,不是以前的網頁布局了,所以之前寫的csdn部落格爬蟲也就宣告失效,所以今天修改了下之前寫的xpath爬蟲,正則爬蟲就沒改了,改的有點麻煩 coding gbk import sys import requests import re from...