# 人員:21292
# 日期:2020/3/10 23:00
# 工具:pycharm
import requests
from lxml import etree
from urllib import request
import os
headers =
kuwo =
defget_name_url
(url)
: response = requests.get(url,headers = headers)
text = response.content.decode(
'utf-8'
) html = etree.html(text)
movie_names = html.xpath(
'//div[@class = "mvlist"]/ul/li/span/text()'
) movie_urls = html.xpath(
'//div[@class = "mvlist"]/ul/li/a/@href'
) movie_imgs = html.xpath(
'//div[@class = "mvlist"]/ul/li/a/img/@_src'
)for each in
range
(len
(movie_names)):
movies =
movie_url =
''+ movie_urls[each]
movies[
'**'
]= movie_url
movie_name = movie_names[each]
movies[
'名稱'
]= movie_name
movie_img = movie_imgs[each]
movies[
'海報'
]= movie_img
(movie_name,
':',movie_url,
,movie_img)
try:
file_name = os.getcwd()+
"\\酷我海報\\"
+ movie_name +
".png"
request.urlretrieve(movie_img, file_name)
except
('我沒有找到'
)def
start_spider()
:for page in
range(1
,101,1
):url =
'/mvweb/html/index_9_'
+str
(page)
+'.html'
get_name_url(url)
if __name__ ==
'__main__'
: os.mkdir(
"酷我海報"
) start_spider(
)豆瓣電影爬蟲:
電影天堂爬蟲:
csdn論壇爬蟲:
遮蔽酷狗MV廣告
測試於酷狗v8326 2019 1 26 首先要清空四個檔案的內容,可以用編輯器 如記事本 清空內容並儲存,也可以複製檔名後刪除原檔案,再新建同名的空白檔案。這麼做的是為了防止檔案寫入失敗時載入舊的廣告,同時節省硬碟空間 雖然才幾十m,我也不在乎 一般可以通過右鍵單擊檔案 選擇 屬性 安全 選項卡 ...
Python抓取網頁
在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...
Python抓取小說
這個指令碼命令mac在抓取 寫,使用python它有幾個碼。coding utf 8 import re import urllib2 import chardet import sys from bs4 import beautifulsoup import codecs class spider...