# coding=utf-8
from lxml import etree
text = '''
'''html = etree.html(text)
print(html)
# 檢視element物件中包含的字串
# print(etree.tostring(html).decode())
# 獲取class為item-1 li下的a的herf
ret1 = html.xpath("//li[@class='item-1']/a/@href")
print(ret1)
# 獲取class為item-1 li下的a的文字
ret2 = html.xpath("//li[@class='item-1']/a/text()")
print(ret2)
# 每個li是一條新聞,把url和文字組成字典
for href in ret1:
item = {}
item["href"] = href
item["title"] = ret2[ret1.index(href)]
print(item)
print("*" * 100)
# 分組,根據li標籤進行分組,對每一組繼續寫xpath
ret3 = html.xpath("//li[@class='item-1']")
print(ret3)
for i in ret3:
item = {}
item["title"] = i.xpath("a/text()")[0] if len(i.xpath("./a/text()")) > 0 else none
item["href"] = i.xpath("./a/@href")[0] if len(i.xpath("./a/@href")) > 0 else none
print(item)
初識爬蟲 xpath 簡單應用(扇貝單詞)
今天跟著老師爬取扇貝單詞的網頁版,是把網頁內的單詞及其翻譯爬取到本地,並儲存成 txt 檔案,網頁是這樣的 那麼下面進入正題 開始同以往一樣,匯入包,獲取 url 發起請求,獲得響應 url response requests.get url url text print response 這裡我們...
li的排列 inline block的應用
有的時候在布局的時候要實現這樣的效果,外面乙個容器,之所以加邊框是為了看的清楚,裡面是8個小盒子,每個盒子的橫向間距是40px,縱向間距是20px 在以前的時候,我們可以用浮動來做,但是鄙人真的很鄙視浮動,這個屬性造成一大堆的負面效果,所以鄙人今天用了另外乙個小方法來實現。8個小盒子都 是ul的li...
XML中XPath的應用
xpath即為xml路徑語言,它是一種用來確定xml 標準通用標記語言的子集 文件中某部分位置的語言。xpath基於xml的樹狀結構,提供在資料結構樹中找尋節點的能力。起初 xpath 的提出的初衷是將其作為乙個通用的 介於xpointer與xslt間的語法模型。但是 xpath 很快的被開發者採用...