4. 爬蟲的用途
5. 貓眼電影資源爬取
寫程式,然後去網際網路上抓取資料的過程。
自動的批量的採集我們需要的資源
網頁請求
資料分析
結果儲存
(1)網頁都有自己唯一的url
(2)網頁內容都是html結構的
(3)使用的都是http、https協議
(1)給乙個url
(2)寫程式,模擬瀏覽器訪問url
(3)解析內容,提取資料
資料分析
人工智慧資料集
作為社交軟體冷啟動
輿情監控
競爭對手監控
操作環境:
windows、vscode、python3.8.1
執行**:
import requests
from lxml import etree
def getonepage(n):
url = ''
# 告訴伺服器,我們是伺服器
r = requests.get(url,headers=header)
#返回文字
return r.text
def parse(text):
# 初始化
html = etree.html(text)
# 提取我們想要的資訊,需要些xpath語法
# names是列表xpath返回一定是names
names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')
print(names)
text = getonepage(1)
parse(text)
執行結果:
ps c:\users\lenovo\desktop\貓眼》 & "d:/python 3.8.1/python.exe" c:/users/lenovo/desktop/貓眼.py
['霸王別姬', '肖生剋的救贖', '這個殺手不太冷', '羅馬假日', '鐵達尼號', '唐伯虎點秋香', '亂世佳人', '魂斷藍橋', '辛德勒的名單', '喜劇之王']
Python爬取電影天堂資源
from urllib import request,parse from lxml import etree import requests,re url1 req1 request.request url1 response1 request.urlopen req1 html1 respons...
爬取電影資源之網頁爬取篇(python)
6v電影網的主頁分為三列,如下圖所示。該網每天會推薦一些電影 如上圖中的 今日推薦 電影質量還算可以,大部分電影評分還行。所以這部分及是我們現在要提取的部分。然後我們檢視其原始碼,找到該部分的 還是很好找的,網頁結構比較簡單 見下圖 為了驗證找到的 區域是否為我們需要的,可以把圖中框出的 複製到乙個...
利用正則爬取貓眼電影
爬取貓眼電影 import json import requests from requests.exceptions import requestexception import redef get one page url 獲取乙個頁面的資訊 try proxies get random ip ...