利用python爬取電影資源

2021-10-02 23:47:35 字數 1101 閱讀 5690

4. 爬蟲的用途

5. 貓眼電影資源爬取

寫程式,然後去網際網路上抓取資料的過程。

自動的批量的採集我們需要的資源

網頁請求

資料分析

結果儲存

(1)網頁都有自己唯一的url

(2)網頁內容都是html結構的

(3)使用的都是http、https協議

(1)給乙個url

(2)寫程式,模擬瀏覽器訪問url

(3)解析內容,提取資料

資料分析

人工智慧資料集

作為社交軟體冷啟動

輿情監控

競爭對手監控

操作環境:

windows、vscode、python3.8.1

執行**:

import requests

from lxml import etree

def getonepage(n):

url = ''

# 告訴伺服器,我們是伺服器

r = requests.get(url,headers=header)

#返回文字

return r.text

def parse(text):

# 初始化

html = etree.html(text)

# 提取我們想要的資訊,需要些xpath語法

# names是列表xpath返回一定是names

names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')

print(names)

text = getonepage(1)

parse(text)

執行結果:

ps c:\users\lenovo\desktop\貓眼》 & "d:/python 3.8.1/python.exe" c:/users/lenovo/desktop/貓眼.py

['霸王別姬', '肖生剋的救贖', '這個殺手不太冷', '羅馬假日', '鐵達尼號', '唐伯虎點秋香', '亂世佳人', '魂斷藍橋', '辛德勒的名單', '喜劇之王']

Python爬取電影天堂資源

from urllib import request,parse from lxml import etree import requests,re url1 req1 request.request url1 response1 request.urlopen req1 html1 respons...

爬取電影資源之網頁爬取篇(python)

6v電影網的主頁分為三列,如下圖所示。該網每天會推薦一些電影 如上圖中的 今日推薦 電影質量還算可以,大部分電影評分還行。所以這部分及是我們現在要提取的部分。然後我們檢視其原始碼,找到該部分的 還是很好找的,網頁結構比較簡單 見下圖 為了驗證找到的 區域是否為我們需要的,可以把圖中框出的 複製到乙個...

利用正則爬取貓眼電影

爬取貓眼電影 import json import requests from requests.exceptions import requestexception import redef get one page url 獲取乙個頁面的資訊 try proxies get random ip ...