爬取電影資源之網頁爬取篇(python)

2021-09-11 19:12:17 字數 1399 閱讀 4081

6v電影網的主頁分為三列,如下圖所示。

該網每天會推薦一些電影(如上圖中的「今日推薦」),電影質量還算可以,大部分電影評分還行。所以這部分及是我們現在要提取的部分。

然後我們檢視其原始碼,找到該部分的**(還是很好找的,網頁結構比較簡單)見下圖:

為了驗證找到的**區域是否為我們需要的,可以把圖中框出的**複製到乙個text檔案裡,然後更改為html檔案,再開啟,看是否值包含我們需要的部分(今日推薦部分),見下圖:

下面是一段上面定位部分的開始幾段**:

"main"

>

class

="col1"

>

class

="box"

>

>

今日推薦h3

>

class

="pic"

>

>

href

=""target

="_blank"

>

src=

""alt

="2018高分動作《碟中諜6:全面瓦解》1080p.國英雙語.bd中英雙字"

>

可以看出 「今日推薦」區域(電影,不包括該區域的電視劇集部分)是在,

的元素塊裡,且有個明顯的標識是

電影的資源鏈結在href=這個部分;

電影的資源在src=這個部分;

電影的名字在alt="2018高分動作《碟中諜6:全面瓦解》1080p.國英雙語.bd中英雙字"這個部分。

根據前面的分析,利用python以及beautifulsoup的庫實現電影的url的提取:

結果:(電驢和磁力鏈結)

」!(想到寫這個也是我昨晚突發奇想的,感覺很有趣就想研究研究。以前沒怎麼弄過,就兩天的學習和構思,有什麼錯的地方請多多包涵。)

Python爬取電影天堂資源

from urllib import request,parse from lxml import etree import requests,re url1 req1 request.request url1 response1 request.urlopen req1 html1 respons...

利用python爬取電影資源

4.爬蟲的用途 5.貓眼電影資源爬取 寫程式,然後去網際網路上抓取資料的過程。自動的批量的採集我們需要的資源 網頁請求 資料分析 結果儲存 1 網頁都有自己唯一的url 2 網頁內容都是html結構的 3 使用的都是http https協議 1 給乙個url 2 寫程式,模擬瀏覽器訪問url 3 解...

爬取電影天堂

分析每頁的url,可以得到規律是 第t頁的url為 於是可以先分析第一頁,然後對頁數進迴圈,就可得到所有最新電影的詳細資訊。from lxml import etree headers defget movie url url resp requests.get url,headers header...