#coding=gbk
#因為涉及到中文,utf-8會報錯
### 環境:python 3.6###
import requests
import re
import pandas as pd
import csv
from bs4 import beautifulsoup
def generate_allurl(user_in_nub):
url = ''
for url_next in range(1, int(user_in_nub)):
yield url.format(url_next)
def main():
#user_in_nub = input('輸入生成頁數:')
df =
for i in generate_allurl(35): #總共34頁
print("頁碼"+i)
#get_allurl(i)
res = requests.get(i)
if res.status_code == 200:
soup = beautifulsoup(res.text, 'lxml') #獲取html的文字
re_set = re.compile('.*?re_get = re.findall(re_set, res.text)#獲取一頁的二手房資訊個數
print(len(re_get))
#for i in re_get:
#print(i)
#open_url(i)
for i in range(len(re_get)):
info = {}
info['編號'] = re_get[i] + '號'
#print(info)
info['單價'] = soup.select('.unitprice')[i].text
info['地鐵'] = soup.select('.subway')[i].text
print(df)
#df1 = pd.dataframe.from_dict(info, orient='index').t
#pandas_to_xlsx(df1)
# 表頭
# header = ['編號', '單價', '地鐵']
print(len(df))
df = pd.dataframe(df)
#將結果寫入csv
df.to_csv('d:/dst8.csv', index=false)
if __name__ == '__main__':
main()
python爬取鏈家二手房的資料
開啟鏈家官網,進入二手房頁面,選取某個城市,可以看到該城市 總數以及 列表資料。某些 的資料是存放在html中,而有些卻api介面,甚至有些加密在js中,還好鏈家的 資料是存放到html中 通過requests請求頁程式設計客棧面,獲取每頁的html資料 爬取的url,預設爬取的南京的鏈家房產資訊 ...
Python爬取鏈家二手房資訊
2 資料庫表結構 使用物件導向的方式,搭建專案框架 import requests from bs4 import beautifulsoup import pymysql class lianjiaspider mydb pymysql.connect localhost root 123456 ...
Python爬取鏈家二手房資料 重慶地區
最近在學習資料分析的相關知識,打算找乙份資料做訓練,於是就打算用python爬取鏈家在重慶地區的二手房資料。鏈家的頁面如下 爬取 如下 import requests,json,time from bs4 import beautifulsoup import re,csv defparse one...