最近想研究下python爬蟲,於是就找了些練習專案試試手,熟悉一下,貓眼電影可能就是那種最簡單的了。
1 看下貓眼電影的top100頁面
分了10頁,url為:
我們發起請求,得到相應:
我們我使用的是requests庫,這是乙個第三方的庫。
2 利用正則解析爬取下的頁面
當然你也可以使用xpath和bs4。
我們先看一下網頁的源**:
然後根據**寫出要匹配的正則,然後對匹配出來的資料做解析:
3 將抓到的資料寫入本地檔案
4 最後得到的頁面
5 一點小擴充
雖然實現了爬取的功能,但是其實這個程式還可以擴充
普通版:利用for迴圈實現爬取
多程序版:利用程序池建立多程序
第一種方式:
第二種方式:
Python爬取貓眼電影
不多說,直接上 import requests import re import random import pymysql import time 連線資料庫 db pymysql.connect host localhost port 3306,user root passwd a db pyt...
python爬蟲爬取貓眼電影Top100
很早就對爬蟲有所耳聞,於是乎就在網上買了一本python爬蟲的書,在學習的過程中也想做一些筆記與大家分享分享,勿噴 2.1.貓眼電影top100 2.2.f12開啟控制台,在response中找到需要的頁面資訊 如圖 2.3.發現每一部電影都是乙個dd標籤,我們需要爬取它的排名 位址 電影名稱 主演...
爬取貓眼電影
有乙份工作需要我列出兩個電影院的每天電影排期資訊,我不想每次都要去貓眼上覆制貼上。所以做了個爬蟲 功能 能夠知道每天的電影排期資訊 使用限制 只能在當天使用,不能在前一晚上使用,後面我會再考慮修改 coding utf 8 import requests import re from bs4 imp...