# 加異常處理模組
try:
url = ''
response = requests.get(url, timeout=0.1)
response.encoding = 'utf-8'
# 防止requests得到的文字值亂碼
html = response.text
print('requests請求庫請求的結果:\n'
, html)
print('狀態碼'
, response.status_code)
except readtimeout:
print('time out')
# 加異常處理模組
try:
url = ''
result = request.urlopen(url)
print('urllib請求庫的結果:\n'
, result.read().decode('utf-8'))
except error.urlerror as e:
print(e.reason)
print('狀態碼:'
, result.status)
# 下面是解析部分程式
soup = beautifulsoup(html,
'lxml')
for p in soup.select('.list .item p'):
for a in p.select('a'):
print(a.get_text())
print('----------------------------------這是分隔線-------------------------------------')
for li in soup.select('ul .item'):
for a in li.select('a'):
print(a.get_text())
python3爬取電影資料
爬取電影票房資料,用於統計建模分析。目標 為電影票房資料庫 基本的爬取靜態 的技術,模擬登陸使用的是最簡單的cookies。這種模擬登陸的方式雖然簡單但有很大的侷限性,時效性比較短,也許兩三天後就失效了,或者網頁改版一點也會導致失效。最好的方式還是找到登陸頁面,獲取需要提交的資料和提交方式,模擬我們...
python3 小說爬取案例
爬取 具體書籍 res requests.get url,headers header 爬取網頁 web res.text 獲得網頁文字格式 正則匹配方法 匹配除了空格和換行之外的字元 s s 上面的匹配方法無效的時候用這個匹配全部的字元,再用上面的方法進行匹配。具體應用舉例 pattern4 re...
python3爬取高畫質桌布 2
上次只是爬取乙個 的,這次要爬取一整個頁面的所有 的。在上次的 的基礎上進行修改就行了,從 的索引頁面開始,爬取該頁面上所有的 的鏈結,再套用上次的 就行了。若要爬取多個頁面只需在外圍套上乙個迴圈就可以了。如下 import requests import refrom bs4 import bea...