python爬蟲 爬取小豬網的租房資訊

2021-10-04 23:16:38 字數 1783 閱讀 6215

pycharm簡介

pycharm是一種python ide,帶有一整套可以幫助使用者在使用python語言開發時提高其效率的工具,比如除錯、語法高亮、project管理、**跳轉、智慧型提示、自動完成、單元測試、版本控制。此外,該ide提供了一些高階功能,以用於支援django框架下的專業web開發。

演算法介紹

(1)複製標題的xpath資訊,寫出標題的通用 xpath 資訊;

(2)開啟指定路徑文件;

(3)訪問指定目標**,以get方式獲取網頁資料;

(4)加上睡眠;

(5)將title值寫入檔案。

具體實現

import requests        #匯入requests包

import time

from lxml import etree

# w:只寫的模式,如果沒有檔案將自動建立

with

open

('/users/lxdn/desktop/lwl.txt'

,'w'

,encoding=

'utf-8'

)as f:

for a in

range(1

,6):

url =

''.format

(a) data = requests.get(url)

.text

s=etree.html(data)

file

=s.xpath(

'//*[@id="page_list"]/ul/li'

) time.sleep(5)

for div in

file

: title=div.xpath(

"./div[2]/div/a/span/text()")[

0]# 將 title的值寫入檔案

f.write(

"{}\n"

.format

(title)

)print

(title)

實驗結果(1)目標網頁:小豬租房網

(2)**執行

心得體會

(1)通過本次實訓,我了解了網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻,自動索引,模擬程式或者蠕蟲。基於網頁之間的鏈結,通過已知的網頁或資料,來對與其有直接或間接鏈結關係的物件(可以是網頁或**等)作出評價的演算法。又分為網頁粒度、**粒度和網頁塊粒度這三種。

(2)在程式設計過程中,我遇到許多問題:空間有限,在receive時就提取去超連結;動態使用緩衝,設定快取大小,當快取滿時候,要寫入檔案,並清空快取;用第三方庫是好,但是自己永遠不知道其中具體細節,開發的時候盡量自己總結摸索演算法,有助於自己綜合能力的提高。總之,在解決問題的過程中進一步熟悉了程式開發流程,提高了自己的程式設計水平和解決問題的能力。

爬蟲專案1 爬取小豬短租資料

看了這個大神的部落格 爬蟲專案合集,自己也動手實踐一下 請求 requests 解析 xpath 非常簡單,直接放 import requests from lxml import etree source url 以北京地區為例 headers 請求頭比較簡單,如果被識別可以換為更複雜的 多加幾個...

Python爬蟲入門 5 爬取小豬短租租房資訊

小豬短租是乙個租房 上面有很多優質的民宿出租資訊,下面我們以成都地區的租房資訊為例,來嘗試爬取這些資料。小豬短租 成都 頁面 按照慣例,先來爬下標題試試水,找到標題,複製xpath。多複製幾個房屋的標題 xpath 進行對比 id page list ul li 1 div 2 div a span...

爬小豬短租發布的房子資訊

通過輸入國內,國外,城市名只能抓取13頁的資訊。木鳥短租可以嘗試抓取,主要裡面有文章 import requests,re,time from lxml import etree 城市列表 獲取每個城市的url url 獲取城市名稱的鏈結 ser input 輸入你要查詢的地區 1 國內 2 海外 ...