對於top250,一般的爬蟲可以解決,但是在最新&熱門電影的爬取時則出現了問題:
import requests
xp = etree.
html
(resp.text)
actor = xp.
xpath()
print
(actor)
y = xp.
xpath()
print
(y)
結果為空,爬了個寂寞。
會到網頁發現目標問題的源**不在網頁的**裡,查詢不到。
在開發者工具裡可以發現,url在這裡:
所以把這個url弄到**裡,看看data有哪些:
import requests
from lxml import etree
headers =
url =
''resp = requests.
get(url,headers = headers)
.json()
for data in resp[
'data']:
print
(data[
'directors'][
0],','
.join
(data[
'casts'])
)print
('\n'
)
現在就ok了
注意.json可以使輸出更規範,而且可以根據data裡面的引數,以data[x]的形式輸出內容(類似於字典或者數學函式)
python3 爬蟲入門
這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...
python3爬蟲入門
pip install requests2 匯入requests import requests 3 requests方法 requests.get 獲取html網頁的主要方法,對應http的get4 獲取流程 url 使用get方法獲取資料,返回包含網頁資料的response響應,超時時間測試 r...
Python3爬蟲入門 一
python3爬蟲入門 在瀏覽器的位址列輸入url位址,在網頁處右鍵單擊,找到檢查。不同瀏覽器的叫法不同,chrome瀏覽器叫做檢查,firefox瀏覽器叫做檢視元素,但是功能都是相同的 可見即可爬 技術上 違法的 擦邊球 一 url 專業一些的叫法是統一資源定位符 uniform resource...