python爬蟲入門（3）

對於top250,一般的爬蟲可以解決，但是在最新&熱門電影的爬取時則出現了問題：

import requests
xp = etree.
html
(resp.text)
actor = xp.
xpath()
print
(actor)
y = xp.
xpath()
print
(y)

結果為空，爬了個寂寞。

會到網頁發現目標問題的源**不在網頁的**裡，查詢不到。

在開發者工具裡可以發現，url在這裡：

所以把這個url弄到**裡，看看data有哪些：

import requests
from lxml import etree
headers =
url =
''resp = requests.
get(url,headers = headers)
.json()
for data in resp[
'data']:
print
(data[
'directors'][
0],','
.join
(data[
'casts'])
)print
('\n'
)

現在就ok了

注意.json可以使輸出更規範，而且可以根據data裡面的引數，以data[x]的形式輸出內容（類似於字典或者數學函式）

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊，作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單，環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯，因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...

python3爬蟲入門

pip install requests2 匯入requests import requests 3 requests方法 requests.get 獲取html網頁的主要方法，對應http的get4 獲取流程 url 使用get方法獲取資料，返回包含網頁資料的response響應,超時時間測試 r...

Python3爬蟲入門一

python3爬蟲入門在瀏覽器的位址列輸入url位址，在網頁處右鍵單擊，找到檢查。不同瀏覽器的叫法不同，chrome瀏覽器叫做檢查，firefox瀏覽器叫做檢視元素，但是功能都是相同的可見即可爬技術上違法的擦邊球一 url 專業一些的叫法是統一資源定位符 uniform resource...

python爬蟲入門（3）

python3 爬蟲入門

python3爬蟲入門

Python3爬蟲入門 一

相關推薦

Python3爬蟲入門一