給大家分享乙個快速了解相關資訊的辦法:刷論壇!我們來一起做個虎撲論壇的爬蟲吧!
抓包獲取虎撲論壇相關帖子內容,逐條顯示!
先來觀察下網頁,開啟論壇首頁,選擇國際足球
然後往下拉,找到世界盃相關內容
這裡就是我們的目標了,所有相關的新聞都會在這裡顯示,用f12開啟「開發者工具」然後往下瀏覽看看資料報
注意箭頭指向的那幾個地方!
這就是剛才瀏覽的新聞所在的json包,來看看具體資料是什麼
ok,標題、位址、發布時間包括**都已經出現了!我們可以直接抓取json資料然後取出相關內容!
再進入具體新聞頁面看看
世界盃快到了,看我用python爬蟲實現(偽)球迷速成!
所有的文字內容,都在這個標籤下的
標籤內,我們可以用xpath直接取div下的所有文字內容!
這裡就不一 一說明了,直接上**,並錄個小的gif給大家看看效果
#q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree
header =
i = 0
while 1:
#構建迴圈頁面翻頁
url = '世界盃&page='
i += 1
#獲取json資料,一頁20個
html = requestwww.cppcns.coms.get(url+str(i),headers=header).json()['result']
for info in html:
time_r = info['time']#發布時間
title = info['title']#標題
url_r = info['url']#新聞鏈結
ovsijdrigin =vsijd info['origin']#**
print(title)
print('發布時間:',time_r,' '*5,'來自:',origin)
head = header
head['host'] = 'voice.hupu.covsijdm'#更改header中host引數
html_r = requests.get(url_r,headers=head)#獲取新聞詳情
html_r.encoding = 'utf-8'#編碼格式指定
#獲取div下的所有文字
datas = etree.html(html_r.text).xvsijdpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
print('\n'+'內容:'+'\n'*2,datas,'\n')
#可由使用者手動退出迴圈
if input('任意鍵繼續,「q」退出') in ['q', 'q']:
exit()
總結本文標題: python爬蟲實現(偽)球迷速成
本文位址:
Python爬蟲基礎5天速成 列表
常用的列表處理方法 增刪改查排 筆記 namelist 定義乙個空列表 testlist 1 aa bb cc 列表中可以儲存混合型別 print type testlist 1 print testlist 0 length len testlist len可以得到列表長度 i 0 while i...
Python爬蟲基礎5天速成 迴圈控制語句
本節課筆記 for i in range 5 print i 區間取左不取右,輸出0,1,2,3,4 for i in range 0,11,3 步進值為3 print i name beijing for x in name print x,end t 輸出字串中的每個字元 a aa bb cc ...
Python爬蟲基礎5天速成 元組 字典 集合
筆記 元組 tuple 元素不可改變 tup1 建立空元組 tup2 50,只有乙個元素也要加逗號 tup1 abc def 123,456 print tup1 1 1代表訪問最後乙個元素 增 tup2 1,2,cv tup tup1 tup2 print tup 連線兩個元組 刪 del tup...