今天,又雙叒叕是番外篇,我們來爬取csdn作者排行榜上的資料。
首先,排行榜的網頁鏈結是
開啟「檢視網頁源**」,會看到:
也得加上兩個引數:
page=0
pagesize=20
pagesize指定了獲取**排行榜前n名作者的資料(這裡n=20),我們只需在請求時加上引數即可。
瀏覽器訪問這個**,會返回json格式的資料,如下圖:
可以看到,資料儲存在data中的allranklistitem中:
我們來分析第一名的資料:
我們使用json的loads函式,載入資料。
這裡我們只列印前10的排行資料:
import requests
from json import loads
headers =
params =
url =
""r = requests.get(url, headers=headers, params=params)
data = loads(r.text)
["data"][
"allranklistitem"
]for i in data:
user_url =
""+ i[
"username"
]print
(i["currentrank"],
i["nickname"],
",粉絲數:"
+str
(i["fanscount"])
,",等級:"
+str
(i["level"])
,",個人主頁:"
+user_url)
執行以上**,格式應該如下:
1 濤歌依舊 ,粉絲數:96704 ,等級:11 ,個人主頁:stpeace
2 乙個**座的程式猿 ,粉絲數:468522 ,等級:10 ,個人主頁:qq_41185868
3 yuanmeng001 ,粉絲數:14092 ,等級:11 ,個人主頁:yuanmeng001
4 yjclsx ,粉絲數:6701 ,等級:10 ,個人主頁:yjclsx
5 sap劍客 ,粉絲數:9330 ,等級:10 ,個人主頁:zhongguomao
6 augusdi ,粉絲數:10076 ,等級:10 ,個人主頁:augusdi
7 dog250 ,粉絲數:18534 ,等級:10 ,個人主頁:dog250
8 inside_zhang ,粉絲數:5976 ,等級:10 ,個人主頁:lanchunhui
9 okidogreen ,粉絲數:5442 ,等級:10 ,個人主頁:z69183787
10 drogozhang ,粉絲數:21420 ,等級:10 ,個人主頁:weixin_40400177
今天的番外篇就到這兒了,感興趣記得收藏點讚哦~~ Python 爬取CSDN部落格文章
新建乙個module,用於根據使用者名稱來獲取文章的url coding utf 8 from bs4 import beautifulsoup import requests 獲取部落格文章數量 def get page size user name article list url user n...
CSDN文章爬取
title csdn文章爬取 date 2019 06 09 13 17 26 tags 找到文章列表,進行文章爬取,提取到文章的url資訊。進行文章內容的解析,提取文章內容。儲存到本地。嘗試對文章樣式進行儲存 採用python語言來完成,使用pyquery庫進行爬取。article doc blo...
WebCollector爬取CSDN部落格
新聞 部落格爬取是資料採集中常見的需求,也是最容易實現的需求。一些開發者利用httpclient和jsoup等工具也可以實現這個需求,但大多數實現的是乙個單執行緒爬蟲,並且在url去重和斷點爬取這些功能上控制地不好,爬蟲框架可以很好地解決這些問題,開源爬蟲框架往往都自帶穩定的執行緒池 url去重機制...