臨近房子到期,需要尋找新的棲身之所。正好趕上最近在學習資料分析,於是嘗試對鏈家網上的租房資訊進行分析,了解一下最近的租房**。
因為鏈家的租房資訊在不進行篩選的情況下,最多顯示100頁的資料,因此決定以不同區域作為篩選條件,通過python爬蟲分別爬取上海不同區域的資料,最終得到20782條租房資訊,雖然不是全部資料,但是用於分析應該是足夠了。
直接獲取到的資訊如下:
標題戶型
面積**
小區鏈結
時間座標
生活很便利,高區陽光房,看房有鑰匙,新鮮上架
1室1廳
45平4000
崮山小區三街坊
2017.08.10上架
『121.568311』, u』31.245956』 標題
戶型面積
**均價
小區鏈結
時間經度
緯度生活很便利,高區陽光房,看房有鑰匙,新鮮上架
1室1廳
45平4000
88崮山小區三街坊
2017.08.10上架
121.568311
31.245956
通過座標資訊在地圖上進行對映,可以看出大部分的**集中在上海市中心區域,長寧區的徐匯區附近的**最為豐富,另外在市區周邊區域,**主要集中在奉賢區、松江區、青浦區和嘉定等區域。
在鏈家網上檢視**時,每條**資訊中顯示的就是**的標題,鏈家網的**標題比較長,類似於乙個簡介,因此我嘗試對爬取到的**標題進行乙個統計,看看鏈家網在標題中使用頻率最高詞有哪些。
可以看出鏈家的標題中,出現頻率比較高的詞語有樓層,人氣,實地看房等,另外生活便利,地鐵的出現頻率也不低,可見鏈家網的推薦方式主要是通過簡述**資訊,並說明看房便利以及交通便利來進行描述。
戶型也是我們在租房時需要考慮的一環,而什麼戶型的房子最多這便成了乙個問題,通過對**戶型進行統計後,結果如下:
戶型數目
佔比2室2廳
4715
22.7%
3室2廳
4270
20.5%
2室1廳
3876
18.7%
1室1廳
2832
13.6%
3室1廳
1149
5.5%
4室2廳
1049
5.0%
其他2890
13.9%
戶型的種類很多,因此擷取頻率前六的戶型進行計算,結果發現大戶型房子較多,而像適合個人單租的一室戶反而佔比很低,因此大部分人需要進行合租才能解決自己的住房問題。
通過乙個餅狀圖更容易了解其中的分布:
通過計算每平公尺的的月平均租金,來計算租房面積的價效比,由此來找出價效比較高的房子,因為考慮到大部分人並不會去租面積十分大的房子,因此對擷取了150平以下的**資料進行統計計算:
由圖可知平均租金隨著面積的增大有明顯的下降,在80平到130平左右基本持平,每平公尺的租金在70元左右,價效比最高,可以看出整租是乙個性價較高的租賃方式,趕快拉著你的小夥伴去整租吧。
最後我們通過每平公尺的月平均租金來看看小區的價效比如果,通過對這2w多條資料進行分析,得出了如下結論:
-價效比最高top10:
可以看出以上小區的**價效比是十分高的,每平公尺每月才需要10元左右。
-價效比最低top10
價效比最低的小區,每平公尺的月平均租金居然高達850元左右,真是土豪的住所啊。
這篇分析由於只抓取了鏈家網的部分資料且對資料的真實性未做核實,因此可能會導致分析結果不準確的問題。
另外在分析方面,分析的東西比較簡單,無法對租房的選擇進行明確的指引。
如果能抓取各大中介**的資料並對其資料的真實有效性進行保證,同時結合租戶的資訊(如:公司地點,可接受的通勤時間等),也許租房的推薦問題便可以得到解決。
本次分析的原始碼全部都已上傳至github
此分析的所有資料僅用於學習、研究和交流目的,請勿用於商業目的。
jsoup多級爬取鏈家租房資料
主要是由於現在最近正在找房子,所以對鏈家的 進行了分析 for int i 0 i 50 i catch ioexception e elements elements document.select div class content list item for element element e...
thoughtworks值得去嗎 上海鏈家值得去嗎
本人是大四應屆畢業生,因為畢業答辯前在學校沒事,目前在鏈家實習,接下來以我自身經歷來說一下在鏈家的工作感受。鏈家規定的上下班時間是一天八小時,但每個門店的工作時間都是按下面的執行的,而且是無償加班的。周一到周四 9.30 20.00 周五 9.30 21.00 週六日 9.00 21.00 而且達不...
Python爬蟲入門 16 鏈家租房資料抓取
作為乙個活躍在京津冀地區的開發者,要閒著沒事就看看石家莊這個國際化大都市的一些資料,這篇部落格爬取了鏈家網的租房資訊,爬取到的資料在後面的部落格中可以作為一些資料分析的素材。我們需要爬取的 為 首先確定一下,哪些資料是我們需要的 可以看到,框就是我們需要的資料。接下來,確定一下翻頁規律 pg1 pg...