以爬取乙個租房**的每一頁的每乙個租房資訊為例。
分別使用集合和列表在csv檔案中展示為例。
程式設計中需注意的是:
from bs4 import beautifulsoup
import requests
import pandas as pd
import time
headers =
def judgement_***(class_name):
if class_name == ['member_boy_ico']:
return '男'
else:
return '女'
def get_links(url):
wb_data = requests.get(url, headers=headers)
soup = beautifulsoup(wb_data.text, 'lxml')
links = soup.select('#page_list > ul > li > a')
# print(links)
# page_list > ul > li:nth-child(1) > a
# page_list > ul > li:nth-child(2) > a 此處歸一化,把後面的child刪除
for link in links:
href = link.get("href")
# print(href) # right
get_info(href)
# 獲取鏈結位址的資訊
def get_info(url):
wb_data = requests.get(url, headers=headers)
soup = beautifulsoup(wb_data.text, 'lxml')
tittles = soup.select('div.pho_info > h4 > em')
# body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em
addresses = soup.select('div.pho_info > p > span')
prices = soup.select('#pricepart > div.day_l > span')
imgs = soup.select('#curbigimage')
names = soup.select('#floatrightbox > div.js_box.clearfix > div.w_240 > h6 > a')
***s = soup.select('#floatrightbox > div.js_box.clearfix > div.w_240 > h6 > span')
# for tittle,address,price,img,name,*** in zip(tittles,addresses,prices,imgs,names,***s):
# data =
for tittle, address, price, img, name, *** in zip(tittles, addresses, prices, imgs, names, ***s):
tittle.get_text().strip(), # strip()去除兩側多餘空格
address.get_text().strip(),
price.get_text(),
img.get("src"),
name.get_text(),
judgement_***(***.get('class'))
])# print(data)
data =
if __name__ == '__main__':
urls = [''.format(number) for number in range(1, 5)]
for single_url in urls:
# print(single_url)
get_links(single_url)
time.sleep(2) # 睡眠兩秒,防止請求過快導致爬蟲崩壞
df = pd.dataframe(data)
df.columns = ['tittle', 'address', 'price', 'img', 'name', '***']
df.to_csv('d:/機器學習實現/網路爬蟲/output.csv', encoding='utf_8_sig', index=false)
Python爬蟲學習筆記一
爬蟲 網路蜘蛛,通俗講就是模擬瀏覽器。所需要的知識架構 關於基礎知識,隨便找本書就可以 urllib和urllib2是基本的爬蟲庫 正規表示式比較關鍵 框架比較高階,至於是什麼我現在也剛開始學習,一起交流。爬網頁,首先要了解瀏覽網頁是怎麼工作的?使用者輸入 之後,經過dns伺服器,找到伺服器主機,向...
python爬蟲學習筆記(一)
由於我也不是什麼專業人士,我也是在學習,這個就是我自己的乙個學習筆記,什麼爬蟲可以做什麼,為什麼學爬蟲我就不再贅述了,總結一點,爬蟲用來爬取網頁上的東西!在python中用到urllib和urllib2,urllib是python原生的乙個庫,urllib2是python創始人覺得urllib不好使...
python爬蟲學習筆記
一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...