python3爬取新浪NBA新聞資訊(待完善)

2021-08-20 06:47:16 字數 1219 閱讀 7387

# 加異常處理模組

try:

url = ''

response = requests.get(url, timeout=0.1)

response.encoding = 'utf-8'

# 防止requests得到的文字值亂碼

html = response.text

print('requests請求庫請求的結果:\n'

, html)

print('狀態碼'

, response.status_code)

except readtimeout:

print('time out')

# 加異常處理模組

try:

url = ''

result = request.urlopen(url)

print('urllib請求庫的結果:\n'

, result.read().decode('utf-8'))

except error.urlerror as e:

print(e.reason)

print('狀態碼:'

, result.status)

# 下面是解析部分程式

soup = beautifulsoup(html,

'lxml')

for p in soup.select('.list .item p'):

for a in p.select('a'):

print(a.get_text())

print('----------------------------------這是分隔線-------------------------------------')

for li in soup.select('ul .item'):

for a in li.select('a'):

print(a.get_text())

python3爬取電影資料

爬取電影票房資料,用於統計建模分析。目標 為電影票房資料庫 基本的爬取靜態 的技術,模擬登陸使用的是最簡單的cookies。這種模擬登陸的方式雖然簡單但有很大的侷限性,時效性比較短,也許兩三天後就失效了,或者網頁改版一點也會導致失效。最好的方式還是找到登陸頁面,獲取需要提交的資料和提交方式,模擬我們...

python3 小說爬取案例

爬取 具體書籍 res requests.get url,headers header 爬取網頁 web res.text 獲得網頁文字格式 正則匹配方法 匹配除了空格和換行之外的字元 s s 上面的匹配方法無效的時候用這個匹配全部的字元,再用上面的方法進行匹配。具體應用舉例 pattern4 re...

python3爬取高畫質桌布 2

上次只是爬取乙個 的,這次要爬取一整個頁面的所有 的。在上次的 的基礎上進行修改就行了,從 的索引頁面開始,爬取該頁面上所有的 的鏈結,再套用上次的 就行了。若要爬取多個頁面只需在外圍套上乙個迴圈就可以了。如下 import requests import refrom bs4 import bea...