爬蟲專案1 爬取小豬短租資料

2021-10-03 10:05:51 字數 1608 閱讀 1525

看了這個大神的部落格—爬蟲專案合集,自己也動手實踐一下

請求:requests 解析:xpath

非常簡單,直接放**:

import requests

from lxml import etree

source_url =

""# 以北京地區為例

headers =

# 請求頭比較簡單,如果被識別可以換為更複雜的(多加幾個字段)

data_lst =

# 這裡用list和dict簡單存一下,最好存到資料庫中(以後會用mysql)

defrequest

(url)

: response = requests.get(source_url, headers=headers)

.content

return response

defget_data

(text)

: html = etree.html(text)

url_lst = html.xpath(

".//div[@id='page_list']//li/a[@class='resule_img_a']/@href"

)for url in url_lst:

ht = etree.html(requests.get(url, headers=headers)

.content)

title = ht.xpath(

".//div[@class='pho_info']/h4/em/text()")[

0]# 獲取**標題

address = ht.xpath(

".//div[@class='pho_info']/p/@title")[

0]# 獲取**位址

price = ht.xpath(

".//div[@class='day_l']/span/text()")[

0]# 獲取****

data_dict =

data_dict[

"title"

]= title

data_dict[

"address"

]= address

data_dict[

"price"

]= price

next_url = html.xpath(

".//div[@class='day_l']/span/text()"

)return next_url

if __name__ ==

'__main__'

:next=""

page =

2for i in

range

(page)

:# 這裡的page可以自己隨便設定,但不要超過頁數範圍

if i ==0:

text = request(source_url)

else

: text = request(

next

)next

= get_data(text)

print

(data_lst)

Python爬蟲入門 5 爬取小豬短租租房資訊

小豬短租是乙個租房 上面有很多優質的民宿出租資訊,下面我們以成都地區的租房資訊為例,來嘗試爬取這些資料。小豬短租 成都 頁面 按照慣例,先來爬下標題試試水,找到標題,複製xpath。多複製幾個房屋的標題 xpath 進行對比 id page list ul li 1 div 2 div a span...

爬小豬短租發布的房子資訊

通過輸入國內,國外,城市名只能抓取13頁的資訊。木鳥短租可以嘗試抓取,主要裡面有文章 import requests,re,time from lxml import etree 城市列表 獲取每個城市的url url 獲取城市名稱的鏈結 ser input 輸入你要查詢的地區 1 國內 2 海外 ...

小豬短租住房資訊爬取

爬蟲練習 對小豬短租的住房資訊爬取 import requests 小豬短租住房詳情爬取 from bs4 import beautifulsoup url requests.get soup beautifulsoup url.text,lxml titles soup.select div.wr...