Python爬蟲實現(偽)球迷速成

2022-10-04 10:06:11 字數 1488 閱讀 2232

給大家分享乙個快速了解相關資訊的辦法:刷論壇!我們來一起做個虎撲論壇的爬蟲吧!

抓包獲取虎撲論壇相關帖子內容,逐條顯示!

先來觀察下網頁,開啟論壇首頁,選擇國際足球

然後往下拉,找到世界盃相關內容

這裡就是我們的目標了,所有相關的新聞都會在這裡顯示,用f12開啟「開發者工具」然後往下瀏覽看看資料報

注意箭頭指向的那幾個地方!

這就是剛才瀏覽的新聞所在的json包,來看看具體資料是什麼

ok,標題、位址、發布時間包括**都已經出現了!我們可以直接抓取json資料然後取出相關內容!

再進入具體新聞頁面看看

世界盃快到了,看我用python爬蟲實現(偽)球迷速成! 

所有的文字內容,都在這個標籤下的

標籤內,我們可以用xpath直接取div下的所有文字內容!

這裡就不一 一說明了,直接上**,並錄個小的gif給大家看看效果

#q群542110741

# -*- coding:utf-8 -*-

import requests

from lxml import etree

header =

i = 0

while 1:

#構建迴圈頁面翻頁

url = '世界盃&page='

i += 1

#獲取json資料,一頁20個

html = requestwww.cppcns.coms.get(url+str(i),headers=header).json()['result']

for info in html:

time_r = info['time']#發布時間

title = info['title']#標題

url_r = info['url']#新聞鏈結

ovsijdrigin =vsijd info['origin']#**

print(title)

print('發布時間:',time_r,' '*5,'來自:',origin)

head = header

head['host'] = 'voice.hupu.covsijdm'#更改header中host引數

html_r = requests.get(url_r,headers=head)#獲取新聞詳情

html_r.encoding = 'utf-8'#編碼格式指定

#獲取div下的所有文字

datas = etree.html(html_r.text).xvsijdpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()

print('\n'+'內容:'+'\n'*2,datas,'\n')

#可由使用者手動退出迴圈

if input('任意鍵繼續,「q」退出') in ['q', 'q']:

exit()

總結本文標題: python爬蟲實現(偽)球迷速成

本文位址:

Python爬蟲基礎5天速成 列表

常用的列表處理方法 增刪改查排 筆記 namelist 定義乙個空列表 testlist 1 aa bb cc 列表中可以儲存混合型別 print type testlist 1 print testlist 0 length len testlist len可以得到列表長度 i 0 while i...

Python爬蟲基礎5天速成 迴圈控制語句

本節課筆記 for i in range 5 print i 區間取左不取右,輸出0,1,2,3,4 for i in range 0,11,3 步進值為3 print i name beijing for x in name print x,end t 輸出字串中的每個字元 a aa bb cc ...

Python爬蟲基礎5天速成 元組 字典 集合

筆記 元組 tuple 元素不可改變 tup1 建立空元組 tup2 50,只有乙個元素也要加逗號 tup1 abc def 123,456 print tup1 1 1代表訪問最後乙個元素 增 tup2 1,2,cv tup tup1 tup2 print tup 連線兩個元組 刪 del tup...