簡要分析上海鏈家9月二手房

2021-09-26 09:27:21 字數 1574 閱讀 7130

密碼:3o3w

個人主頁裡面有上傳處理後的資源,尚待審核

上海當前哪個區域二手房樓市最火?

上海各個區的房價水平可以分成幾個梯隊?

**的房子越老越吃香?

上海的豪宅都分布在哪?

有什麼特點?

市場上哪個戶型最受歡迎?

編號 → 查詢和選擇 → 定位條件 → 空值 ,刪除行。

編號第一行 → ctrl+shift+↓ → 驗證沒有空值,並將編號轉換為數值形式 → 單元格格式,數值。

選中編號這一列 → 資料 → 刪除重複值。

分列「基本屬性」「交易屬性」,然後每個列再用「分列」處理,提取重要資訊、並重命名列名。

不相關或者缺失值多的列直接刪除,查詢和選擇 → 替換 → 把空格全部去除掉。

「室、廳、廚、衛、梯、戶、經緯」用中位數或平均數填充空值,「2019 - 建成時間」= 「樓齡」,ctrl+shift+↓選中用ctrl+d填充全部。

得到比較舒服的excel**。

檢視缺失值的列,「朝向、行政區、小區名稱」用頻數最大填充;「緯度」只有兩個缺失值,用均值填充。

drop「編號」,不相關,one-hot-encode也不方便;新增一列「heat_values」,描述房屋單價層級0-5。

通過探索資料,找出哪些資料水平之後的二手房比較稀有,就自行評斷為豪宅。

自行定義豪宅:單價》 10萬元/m² 或者 面積》 300m²,且總價》1000萬元。

對比一下總**。浦東是二手**最多的。

行政區與單價的箱線圖。顯示了每個區二手房主要單價分布情況,靜安的單價相對其他區域會比較高,浦東是被某些極端值拉高了房屋水平均價,實際大部分二手房單價還是算中等。

樓齡的均值分布。(可以將它做成組合圖去體現關係,這裡沒去做。)

總價的均值分布

由subplot可知,最熱戶型是2室,2廳,1廚,1衛,1梯,2戶。

皮爾遜係數p=0.74,接近1,總價與面積呈現正相關關係。通常來說,**與面積呈正相關,但也有特殊情況,最好驗證下。

Python爬取鏈家二手房資訊

2 資料庫表結構 使用物件導向的方式,搭建專案框架 import requests from bs4 import beautifulsoup import pymysql class lianjiaspider mydb pymysql.connect localhost root 123456 ...

python爬蟲爬取鏈家二手房資訊

問題一 鏈家 也有反爬蟲策略和robots限制,robots限制忽略 不然沒法爬 另外頻繁爬取會直接導致被ban,需要隔天才會解禁止。防止被ban的方法有多種,1.禁止cookie 2.設定header 3.加大爬取間隔 4.使用 我只用了前三種方法,具體可以在settings.py 和middle...

python爬取鏈家網二手房資訊

朋友請我幫忙做的期末作業,我自己不是愛說話,直接分享 可以直接執行的,期中用的是 python 3.6版本,導包的時候直接在cmd裡面用的pip install 包名,其中有的包安裝失敗,提示pip需要公升級,可以看一下這個鏈結 下面是 在這裡插入 片 usr bin env python3 cod...