import requestsfrom lxml import etree
url=''
headers=
response=requests.get(url=url,headers=headers)
page_text=response.text
tree=etree.html(page_text)
name_list=tree.xpath('//ul[@class="house-list-wrap"]/li')
with open('./二手房標題.txt','w',encoding='utf-8')as fp:
for name in name_list:
fp.write(name.xpath('./div[2]/h2/a/text()')[0]+'\n')
xpath解析原理:
-1.例項化乙個etree的物件,且需要將被解析的頁面原始碼資料載入到該物件中
-2.呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲
環境的安裝:
-pip install lxml
如何例項化乙個etree物件:from lxml import etree
-1.將本地的html文件中的原始碼資料載入到etree物件中:
etree.parse(filepath)
-2.可以將從網際網路上獲取的原始碼資料載入到該物件中
etree.html('page_text')
-xpath('xpath表示式')
- /:表示從根結點開始定位,表示的是乙個層級
- //:表示多個層級。可以表示從任意位置開始定位
- 屬性定位://div[@class='song'] tag[@attrname]="attrvalue"
- 索引定位://div[@class="song"]/p[3] 索引是從1開始的。
- 如何取文字:
- /text() 獲取的是標籤中的直系的文字內容
- //text() 標籤中非直系的文字內容(所有文字內容)
- 如何取屬性:
-/@arrtname img/src
天津二手房買賣流程
二手房交易的整個過程大致分以下幾個階段 1 買賣雙方建立資訊溝通渠道,買方了解房屋整體現狀及產權狀況,要求賣方提供合法的證件,包括房屋所有權證書 身份證件及其它證件。2 如賣方提供的房屋合法,可以上市交易,買方可以交納購房定金 交納購房定金不是商品房買賣的必經程式 買賣雙方簽訂房屋買賣合同 或稱房屋...
爬取二手房資訊
開源到github了 專案位址 基於springboot,idea 匯入依賴 org.jsoupgroupid jsoupartifactid 1.10.2version dependency 資料放入redis中,引人redis org.springframework.bootgroupid sp...
爬取58二手房的放原標題
import requests from bs4 import beautifulsoup import re from lxml import etree import time 需求 爬取58二手房的 資訊 if name main headers 爬取到頁面原始碼資料 url page tex...