爬取自己部落格的訪問量,積分,排名的資訊
學python不久,前乙個月看見了一篇爬取csdn的文章,一直想自己試試,今天總算完成了乙個比較low的版本了吧
from requests import *
import os
import time
from bs4 import beautifulsoup
try:
#headers偽裝成瀏覽器訪問
url = ""
r = get(url = url,headers = headers,timeout = 3)
if r.status_code != 200:
print("爬取失敗\n")
else:
for time in range(5,0,-1):
#這裡因為不知道怎麼調整游標位置和刪除,所以直接用cls清屏然後重新列印了
html = r.text
soup = beautifulsoup(html, "html.parser")
items = soup.find_all('div',attrs=)
#檢視csdn原始碼發現我們需要的資訊都在這個gradeandbadge gradewidths裡面
print(soup.find('a',attrs=).string)
#這個是我們的部落格名資訊
for i in items:
items = str(i.find_all('span'))
print(items.replace('','').replace('','').replace(', ',''))
# 這裡因為博主比較low不會用正則匹配,就暴力轉化為str然後刪除指定字串了
print('系統將在 %d秒 後自動退出' %time)
time.sleep(1)
time -= 1
s = os.system('cls')
except:
print('抓取失敗')
time.sleep(3)
爬取自己的csdn目錄
csdn目錄的分頁 後面是幾就是幾個分頁,簡單點,直接遍歷增加就好了,導包就不細說了 解析html org.jsoup groupid jsoup artifactid 1.11 3 version dependency fr.opensagres.xdocreport groupid fr.ope...
爬蟲抓取自己csdn部落格點讚數
檢視自己文章的點讚數 瀏覽量。import requests,re,math url r requests.get url,headers text articles re.search d s 原創 r group 1 pages int math.ceil int articles 20 art...
爬蟲入門(一)爬自己的CSDN部落格
今天本來在搞人體識別模型的,emmm後來想搞一直想試的爬蟲,於是我就來了!我是用的軟體是pycharm,這個軟體是jetbrains開發的,我最近使用的連線資料庫的軟體datagrip也是jetbrains公司了,只不過我認為datagrip對新使用者不太友好,很多功能都隱藏起來了,還要你自己去發現...