Python爬蟲實現（偽）球迷速成

給大家分享乙個快速了解相關資訊的辦法：刷論壇！我們來一起做個虎撲論壇的爬蟲吧！

抓包獲取虎撲論壇相關帖子內容，逐條顯示！

先來觀察下網頁，開啟論壇首頁，選擇國際足球

然後往下拉，找到世界盃相關內容

這裡就是我們的目標了，所有相關的新聞都會在這裡顯示，用f12開啟「開發者工具」然後往下瀏覽看看資料報

注意箭頭指向的那幾個地方！

這就是剛才瀏覽的新聞所在的json包，來看看具體資料是什麼

ok，標題、位址、發布時間包括**都已經出現了!我們可以直接抓取json資料然後取出相關內容！

再進入具體新聞頁面看看

世界盃快到了，看我用python爬蟲實現（偽）球迷速成！

所有的文字內容，都在這個標籤下的

標籤內，我們可以用xpath直接取div下的所有文字內容!

這裡就不一一說明了，直接上**，並錄個小的gif給大家看看效果

#q群542110741

# -*- coding:utf-8 -*-

import requests

from lxml import etree

header =

i = 0

while 1:

#構建迴圈頁面翻頁

url = '世界盃&page='

i += 1

#獲取json資料，一頁20個

html = requestwww.cppcns.coms.get(url+str(i),headers=header).json()['result']

for info in html:

time_r = info['time']#發布時間

title = info['title']#標題

url_r = info['url']#新聞鏈結

ovsijdrigin =vsijd info['origin']#**

print(title)

print('發布時間:',time_r,' '*5,'來自：',origin)

head = header

head['host'] = 'voice.hupu.covsijdm'#更改header中host引數

html_r = requests.get(url_r,headers=head)#獲取新聞詳情

html_r.encoding = 'utf-8'#編碼格式指定

#獲取div下的所有文字

datas = etree.html(html_r.text).xvsijdpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()

print('\n'+'內容：'+'\n'*2,datas,'\n')

#可由使用者手動退出迴圈

if input('任意鍵繼續，「q」退出') in ['q', 'q']:

exit()

總結本文標題: python爬蟲實現（偽）球迷速成

本文位址:

Python爬蟲基礎5天速成列表

常用的列表處理方法增刪改查排筆記 namelist 定義乙個空列表 testlist 1 aa bb cc 列表中可以儲存混合型別 print type testlist 1 print testlist 0 length len testlist len可以得到列表長度 i 0 while i...

Python爬蟲基礎5天速成迴圈控制語句

本節課筆記 for i in range 5 print i 區間取左不取右，輸出0，1，2，3，4 for i in range 0,11,3 步進值為3 print i name beijing for x in name print x,end t 輸出字串中的每個字元 a aa bb cc ...

Python爬蟲基礎5天速成元組字典集合

筆記元組 tuple 元素不可改變 tup1 建立空元組 tup2 50,只有乙個元素也要加逗號 tup1 abc def 123,456 print tup1 1 1代表訪問最後乙個元素增 tup2 1,2,cv tup tup1 tup2 print tup 連線兩個元組刪 del tup...

Python爬蟲實現（偽）球迷速成

Python爬蟲基礎5天速成 列表

Python爬蟲基礎5天速成 迴圈控制語句

Python爬蟲基礎5天速成 元組 字典 集合

相關推薦

Python爬蟲基礎5天速成列表

Python爬蟲基礎5天速成迴圈控制語句

Python爬蟲基礎5天速成元組字典集合