6v電影網的主頁分為三列,如下圖所示。
該網每天會推薦一些電影(如上圖中的「今日推薦」),電影質量還算可以,大部分電影評分還行。所以這部分及是我們現在要提取的部分。
然後我們檢視其原始碼,找到該部分的**(還是很好找的,網頁結構比較簡單)見下圖:
為了驗證找到的**區域是否為我們需要的,可以把圖中框出的**複製到乙個text檔案裡,然後更改為html檔案,再開啟,看是否值包含我們需要的部分(今日推薦部分),見下圖:
下面是一段上面定位部分的開始幾段**:
"main"
的元素塊裡,且有個明顯的標識是>
class
="col1"
>
class
="box"
>
>
今日推薦h3
>
class
="pic"
>
>
href
=""target
="_blank"
>
src=
""alt
="2018高分動作《碟中諜6:全面瓦解》1080p.國英雙語.bd中英雙字"
>
可以看出 「今日推薦」區域(電影,不包括該區域的電視劇集部分)是在,
。
電影的資源鏈結在
href=
這個部分;電影的資源在
src=
這個部分;電影的名字在
alt="2018高分動作《碟中諜6:全面瓦解》1080p.國英雙語.bd中英雙字"
這個部分。根據前面的分析,利用python以及beautifulsoup的庫實現電影的url的提取:
結果:(電驢和磁力鏈結)
」!(想到寫這個也是我昨晚突發奇想的,感覺很有趣就想研究研究。以前沒怎麼弄過,就兩天的學習和構思,有什麼錯的地方請多多包涵。)
Python爬取電影天堂資源
from urllib import request,parse from lxml import etree import requests,re url1 req1 request.request url1 response1 request.urlopen req1 html1 respons...
利用python爬取電影資源
4.爬蟲的用途 5.貓眼電影資源爬取 寫程式,然後去網際網路上抓取資料的過程。自動的批量的採集我們需要的資源 網頁請求 資料分析 結果儲存 1 網頁都有自己唯一的url 2 網頁內容都是html結構的 3 使用的都是http https協議 1 給乙個url 2 寫程式,模擬瀏覽器訪問url 3 解...
爬取電影天堂
分析每頁的url,可以得到規律是 第t頁的url為 於是可以先分析第一頁,然後對頁數進迴圈,就可得到所有最新電影的詳細資訊。from lxml import etree headers defget movie url url resp requests.get url,headers header...