爬蟲爬取趕集網租房資訊

2021-10-12 08:45:39 字數 2941 閱讀 9571

**如下(示例):

import scrapy

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

**如下(示例):

# terminal 終端實現

cd .. # 跳轉到上一層目錄

scrapy startproject booktop # 和專案同名的scrapy框架專案

**如下(示例):

robotstxt_obey = false # 君子協議 false 不遵守

(khtml, like gecko) chrome/85.0.4183.121 safari/537.36'

**如下(示例):

# spiders資料夾下建立python檔案 ganspider.py

import scrapy

from demo6.items import houseitem

class ganjispider(scrapy.spider):

name="gan_spider"

allowed_domains=["xiangyang.ganji.com"]

start_urls=[""]

# 解析資料

def parse(self, response, **kwargs):

# print(response.text)

**如下(示例):

# 在terminal終端進行

cd gandemo # 進入專案資料夾

scrapy crawl gan_spider # 執行專案下的爬蟲(和name的值保持一致)

# 測試成功,看到頁面**

**如下(示例):

# 需要匯入houseitem類 檔案開頭匯入 from demo6.items import houseitem

from demo6.items import houseitem

class housespider(scrapy.spider):

name="house_spider"

allowed_domains=["xiangyang.ganji.com"]

start_urls=[""]

# 解析資料

def parse(self, response, **kwargs):

# 所有的房子

houses=response.css('dl.f-list-item-wrap.min-line-height.f-clear')

# 戶型 **

for house in houses:

size=house.css('dd.dd-item.size span:first-child::text').extract()

[0]# print(size)

price=house.css('div.price span.num::text').extract()[0]

# print(price)

yield houseitem(size=size,price=price)

需要使用item物件完成資料封裝並傳輸

**如下(示例):

# items.py書寫房屋類

class houseitem(scrapy.item):

size=scrapy.field()

price=scrapy.field()

pass

**如下(示例):

# 在setting檔案下,解開注釋

item_pipelines =

#資料儲存到txt檔案下

# 開啟管道檔案 booktoppipeline

class housepipeline:

def process_item(self, item, spider):

file=open('house.txt','a+',encoding='utf-8')

file.write( item['size']+','+item['price']+'\n')

return item

# 執行測試結果house.txt下有資料成功

**如下(示例):

# 在專案中建立 分析檔案 demo.py

import pandas as pd

import matplotlib.pyplot as plt

# 資料來源

data=pd.read_csv('house.txt',names=['size','price'])

print(data)

# 統計groupby不同戶型的最**max,最低價min,均價mean,

result=data.groupby('size').agg(['max','min','mean'])

print(result)

# 繪製不同戶型均價折線圖、柱狀圖

import matplotlib

# 中文可顯示

font =

matplotlib.rc('font', **font)

plt.title('不同戶型**示意圖')

# 折線圖 柱狀圖

plt.plot(result.index,result['price']['mean'],'r*--')

plt.bar(result.index,result['price']['mean'])

plt.show()想要獲取更多python學習資料可以加或加q群630390733大家一起來學習討論吧!

Python爬蟲初體驗之趕集網租房資訊獲取

初學python,剛接觸了beautifulsoup模組,就拿爬取趕集網租房資訊小試身手,以此彰顯python的威猛強大。一 環境配置 1 python 3.6.1 windows 10 64位系統 2.pycharm 編譯器 1 bs4 可通過在shell中pip install bs4 進行安裝...

python爬蟲 爬取小豬網的租房資訊

pycharm簡介 pycharm是一種python ide,帶有一整套可以幫助使用者在使用python語言開發時提高其效率的工具,比如除錯 語法高亮 project管理 跳轉 智慧型提示 自動完成 單元測試 版本控制。此外,該ide提供了一些高階功能,以用於支援django框架下的專業web開發。...

Python專案(爬蟲) 趕集網招聘

python 爬蟲的介紹 python requests庫的學習 python bs4 beautifulsoup 庫的學習 python re庫 正規表示式 的學習 進入趕集網首頁,呼叫網頁搜尋,輸入查詢範圍 找到具體職位 檢視源 進行分析,查詢所需資料位置 學習爬蟲後試煉成果檢驗,時刻獲取趕集網...