看了這個大神的部落格—爬蟲專案合集,自己也動手實踐一下
請求:requests 解析:xpath
非常簡單,直接放**:
import requests
from lxml import etree
source_url =
""# 以北京地區為例
headers =
# 請求頭比較簡單,如果被識別可以換為更複雜的(多加幾個字段)
data_lst =
# 這裡用list和dict簡單存一下,最好存到資料庫中(以後會用mysql)
defrequest
(url)
: response = requests.get(source_url, headers=headers)
.content
return response
defget_data
(text)
: html = etree.html(text)
url_lst = html.xpath(
".//div[@id='page_list']//li/a[@class='resule_img_a']/@href"
)for url in url_lst:
ht = etree.html(requests.get(url, headers=headers)
.content)
title = ht.xpath(
".//div[@class='pho_info']/h4/em/text()")[
0]# 獲取**標題
address = ht.xpath(
".//div[@class='pho_info']/p/@title")[
0]# 獲取**位址
price = ht.xpath(
".//div[@class='day_l']/span/text()")[
0]# 獲取****
data_dict =
data_dict[
"title"
]= title
data_dict[
"address"
]= address
data_dict[
"price"
]= price
next_url = html.xpath(
".//div[@class='day_l']/span/text()"
)return next_url
if __name__ ==
'__main__'
:next=""
page =
2for i in
range
(page)
:# 這裡的page可以自己隨便設定,但不要超過頁數範圍
if i ==0:
text = request(source_url)
else
: text = request(
next
)next
= get_data(text)
print
(data_lst)
Python爬蟲入門 5 爬取小豬短租租房資訊
小豬短租是乙個租房 上面有很多優質的民宿出租資訊,下面我們以成都地區的租房資訊為例,來嘗試爬取這些資料。小豬短租 成都 頁面 按照慣例,先來爬下標題試試水,找到標題,複製xpath。多複製幾個房屋的標題 xpath 進行對比 id page list ul li 1 div 2 div a span...
爬小豬短租發布的房子資訊
通過輸入國內,國外,城市名只能抓取13頁的資訊。木鳥短租可以嘗試抓取,主要裡面有文章 import requests,re,time from lxml import etree 城市列表 獲取每個城市的url url 獲取城市名稱的鏈結 ser input 輸入你要查詢的地區 1 國內 2 海外 ...
小豬短租住房資訊爬取
爬蟲練習 對小豬短租的住房資訊爬取 import requests 小豬短租住房詳情爬取 from bs4 import beautifulsoup url requests.get soup beautifulsoup url.text,lxml titles soup.select div.wr...