爬取電影資源之網頁爬取篇（python）

6v電影網的主頁分為三列，如下圖所示。

該網每天會推薦一些電影（如上圖中的「今日推薦」），電影質量還算可以，大部分電影評分還行。所以這部分及是我們現在要提取的部分。

然後我們檢視其原始碼，找到該部分的**（還是很好找的，網頁結構比較簡單）見下圖：

為了驗證找到的**區域是否為我們需要的，可以把圖中框出的**複製到乙個text檔案裡，然後更改為html檔案，再開啟，看是否值包含我們需要的部分（今日推薦部分），見下圖：

下面是一段上面定位部分的開始幾段**：

"main" > class ="col1" > class ="box" > > 今日推薦h3 > class ="pic" > > href =""target ="_blank" > src= ""alt ="2018高分動作《碟中諜6：全面瓦解》1080p.國英雙語.bd中英雙字" > 可以看出「今日推薦」區域（電影，不包括該區域的電視劇集部分）是在，

的元素塊裡，且有個明顯的標識是。

電影的資源鏈結在href=這個部分；

電影的資源在src=這個部分；

電影的名字在alt="2018高分動作《碟中諜6：全面瓦解》1080p.國英雙語.bd中英雙字"這個部分。

根據前面的分析，利用python以及beautifulsoup的庫實現電影的url的提取：

結果：（電驢和磁力鏈結）

」！（想到寫這個也是我昨晚突發奇想的，感覺很有趣就想研究研究。以前沒怎麼弄過，就兩天的學習和構思，有什麼錯的地方請多多包涵。）

Python爬取電影天堂資源

from urllib import request,parse from lxml import etree import requests,re url1 req1 request.request url1 response1 request.urlopen req1 html1 respons...

利用python爬取電影資源

4.爬蟲的用途 5.貓眼電影資源爬取寫程式，然後去網際網路上抓取資料的過程。自動的批量的採集我們需要的資源網頁請求資料分析結果儲存 1 網頁都有自己唯一的url 2 網頁內容都是html結構的 3 使用的都是http https協議 1 給乙個url 2 寫程式，模擬瀏覽器訪問url 3 解...

爬取電影天堂

分析每頁的url，可以得到規律是第t頁的url為於是可以先分析第一頁，然後對頁數進迴圈，就可得到所有最新電影的詳細資訊。from lxml import etree headers defget movie url url resp requests.get url,headers header...

爬取電影資源之網頁爬取篇（python）

Python爬取電影天堂資源

利用python爬取電影資源

爬取電影天堂

相關推薦