import requests
from lxml import etree
# 將目標**上的頁面抓取下來
# headers -> url -> requests -> response
# response.text 返回的是乙個經過解碼後的字串,是str(unicode)型別
# response.content 返回的是乙個原生的字串,就是從網頁上抓取下來的,沒有經過處理的字串,是bytes型別
headers =
url = ''
response = requests.get(url,headers=headers)
text = response.text
# 將抓取下來的資料根據一定的規則進行提取
html = etree.html(text,parser=etree.htmlparser()) # parser html解析器
ul = html.xpath("//ul[@class='lists']")[0] # 獲取屬性為lists的ul標籤內容,因為正在上映和即將上映是一樣的,所以取列表的第乙個元素,即正在上映的ul
lis = ul.xpath("./li") # 獲取ul標籤下的li標籤(每部影片在乙個li標籤下面)
movies =
for li in lis:
title = li.xpath("@data-title")[0] # xpath返回的是乙個列表 影片名字
score = li.xpath("@data-score")[0] # 影片評分
release_time = li.xpath("@data-release")[0] # 上映時間
time = li.xpath("@data-duration")[0] # 影片時長
region = li.xpath("@data-region")[0] # 製片國家地區
director = li.xpath("@data-director")[0] #導演
actors = li.xpath("@data-actors")[0] #主演
category = li.xpath("@data-category")[0] #上映型別
image = li.xpath(".//img/@src")[0] # 鏈結
movie =
for movie in movies:
for value in movie.values():
print(value + "||",end="")
print()
爬取豆瓣網電影資訊
coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...
python爬蟲爬取豆瓣電影資訊
我們準備使用python的requests和lxml庫,直接安裝完之後開始操作 目標爬取肖申克救贖資訊 傳送門 導入庫import requests from lxml import etree 給出鏈結 url 獲取網頁html前端 一行搞定,在requests中已經封裝好了 data reque...
控制流程,爬取豆瓣電影資訊
if 條件判斷 if 條件成立,執行 1,條件不成立,執行 2 1else 2age 19 if age 18 print 你已經成年了!雙分支結構 age 19 if age 18 print 成年 else print 未成年 如果 成績 90,列印 優秀 如果 成績 80 並且 成績 90,列...