from bs4 import beautifulsoup
import requests
import csv
import time
url =
""#已完成的頁數序號,初時為0
page =
0# 建立乙個有寫許可權的csv_file
csv_file =
open
("rent.csv"
,"w"
)# 建立csv_writer,分隔符','
csv_writer = csv.writer(csv_file, delimiter=
',')
while
true
: page +=
1print
("fetch: "
, url.
format
(page=page)
) time.sleep(1)
# 響應
response = requests.get(url.
format
(page=page)
) html = beautifulsoup(response.text)
# 在list中選li選項
house_list = html.select(
".list > li"
)# 迴圈在讀不到新的**時結束
ifnot house_list:
break
for house in house_list:
house_title = house.select(
"h2")[
0].string
house_url = house.select(
"a")[0
]["href"
] house_info_list = house_title.split(
)# 如果第二列是公寓名則取第一列作為位址
if"公寓"
in house_info_list[1]
or"青年社群"
in house_info_list[1]
: house_location = house_info_list[0]
else
: house_location = house_info_list[1]
house_money = house.select(
".money")[
0].select(
"b")[0
].string
csv_writer.writerow(
[house_title, house_location, house_money, house_url]
)csv_file.close(
)
爬蟲 python 58同城 1
import datetime 時間 import sqlite3 資料庫模組 import requests 獲取html網頁的主要方法,對應於http的get for i in range 1,50 抓50頁,愛抓幾頁寫幾頁 print 當前抓取的頁面為 i url format i html ...
爬蟲 成都58同城所有房價,Python實現
程式發布日期2018 9 25 如果以後不能使用了,就需要更改解析方式.github部落格傳送門 csdn部落格傳送門 熟悉lxml中的etree模組 xpath的使用 檔案操作 函式時間模組 import urllib.request 開啟網頁,讀取網頁內容用 from lxml import e...
58同城演算法
58同城題目 58同城出了三道演算法題,第一道題題目過長。好像是和推薦系統掛鉤的題目 給cv一條活路吧!t t 第二道題還有第三道題都是leetcode上很簡單的題目 第一次2ac!主要還是題目簡單 主要想說一下第二道題目,給定乙個非負整數num,求在0 x num區間中的所有整數的二進位制數中1的...