python爬蟲爬取小豬網的租房資訊

pycharm簡介

pycharm是一種python ide，帶有一整套可以幫助使用者在使用python語言開發時提高其效率的工具，比如除錯、語法高亮、project管理、**跳轉、智慧型提示、自動完成、單元測試、版本控制。此外，該ide提供了一些高階功能，以用於支援django框架下的專業web開發。

演算法介紹

（1）複製標題的xpath資訊，寫出標題的通用 xpath 資訊；

（2）開啟指定路徑文件；

（3）訪問指定目標**，以get方式獲取網頁資料；

（4）加上睡眠；

（5）將title值寫入檔案。

具體實現

import requests        #匯入requests包
import time
from lxml import  etree
# w：只寫的模式，如果沒有檔案將自動建立
with
open
('/users/lxdn/desktop/lwl.txt'
,'w'
,encoding=
'utf-8'
)as f:
for a in
range(1
,6):
url =
''.format
(a)        data = requests.get(url)
.text
s=etree.html(data)
file
=s.xpath(
'//*[@id="page_list"]/ul/li'
)        time.sleep(5)
for div in
file
:            title=div.xpath(
"./div[2]/div/a/span/text()")[
0]# 將 title的值寫入檔案
f.write(
"{}\n"
.format
(title)
)print
(title)

實驗結果(1)目標網頁：小豬租房網

(2)**執行

心得體會

（1）通過本次實訓，我了解了網路爬蟲（又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻，自動索引，模擬程式或者蠕蟲。基於網頁之間的鏈結，通過已知的網頁或資料，來對與其有直接或間接鏈結關係的物件（可以是網頁或**等）作出評價的演算法。又分為網頁粒度、**粒度和網頁塊粒度這三種。

（2）在程式設計過程中，我遇到許多問題：空間有限，在receive時就提取去超連結；動態使用緩衝，設定快取大小，當快取滿時候，要寫入檔案，並清空快取；用第三方庫是好，但是自己永遠不知道其中具體細節，開發的時候盡量自己總結摸索演算法，有助於自己綜合能力的提高。總之，在解決問題的過程中進一步熟悉了程式開發流程，提高了自己的程式設計水平和解決問題的能力。

python爬蟲爬取小豬網的租房資訊

爬蟲專案1 爬取小豬短租資料

Python爬蟲入門 5 爬取小豬短租租房資訊

爬小豬短租發布的房子資訊

python爬蟲 爬取小豬網的租房資訊

爬蟲專案1 爬取小豬短租資料

Python爬蟲入門 5 爬取小豬短租租房資訊

爬小豬短租發布的房子資訊

相關推薦

python爬蟲爬取小豬網的租房資訊