在學習完requests網路請求方法和xpath資料解析方法之後,今天通過乙個例項來對前面所學的知識進行鞏固,也算是一種學以致用吧!
# 0、匯入所需要的包
import requests
from lxml import etree
# 1、資訊的獲取
headers =
url =
""response = requests.get(url,headers=headers)
text = response.text
# 2、資訊的清洗
## 2.1 首先使用etree構造乙個例項,方便後續使用xpath進行資料解析
html = etree.html(text)
## 2.2 根據網頁結構,書寫xpath語句進行資料解析
ul = html.xpath(
"//ul[@class='lists']")[
0]lis = ul.xpath(
"./li"
)## 2.3 構造列表,儲存目標資訊
movies =
for li in lis:
title = li.xpath(
"@data-title")[
0]score = li.xpath(
"@data-score")[
0]release = li.xpath(
"@data-release")[
0]duration = li.xpath(
"@data-duration")[
0]region = li.xpath(
"@data-region")[
0]director = li.xpath(
"@data-director")[
0]actors = li.xpath(
"@data-actors")[
0]poster = li.xpath(
".//img/@src")[
0]movie =
# 3、資訊的儲存(將目標資訊儲存為csv檔案,儲存在本地磁碟)
with
open
("result.csv"
,"w"
,encoding=
"utf-8"
)as fp:
for i in
range
(len
(movies)):
# 檔案寫入之前,必須使用str()函式轉換成字串形式
由於最近剛跟女盆友分手了,所以學習狀態一直不太好,老是會想起以前跟她在一起美好的點點滴滴,自己虧欠她很多。她時常出現在我的夢中,就好像一直在我的身邊一樣,祝她在那遙遠的沒有我的地方能夠幸福快樂,我們也要繼續為自己的幸福生活而奮鬥哦!
爬蟲2 爬取豆瓣網熱映電影
1.爬取一部電影的詳細內容 from bs4 import beautifulsoup import requests 獲取爬取的 url requests.get 獲取網頁源 v source beautifulsoup url.text,lxml print v source 爬取標題 v ti...
python爬蟲爬取豆瓣電影資訊
我們準備使用python的requests和lxml庫,直接安裝完之後開始操作 目標爬取肖申克救贖資訊 傳送門 導入庫import requests from lxml import etree 給出鏈結 url 獲取網頁html前端 一行搞定,在requests中已經封裝好了 data reque...
python爬蟲 爬取豆瓣網電影資訊
豆瓣網 如下 import requests import urllib.request if name main 指定ajax get請求的url 通過抓包進行獲取 url 定製請求頭資訊,相關的頭資訊必須封裝在字典結構中 headers import requests import urllib...