# -*- coding: utf-8 -*-import sys
import requests
from lxml import etree
import codecs
reload(sys)
sys.setdefaultencoding("utf-8")
3.html
存本地使加快請求速度
# open
後為路徑 建議用相對路徑 第乙個點表示當前檔案上一級路徑
content = codecs.open("./3.html"
, "r"
, encoding="utf-8").read()
# print content
doc = etree.html(content)
# print doc
# 獲取所有文章封面
imgimg_list = doc.xpath('''//div[@class="post floated-thumb"]//img''')
# print img_list
for img in img_list:
try:
print img.xpath("@src")[0]
alt = img.xpath("@alt")[0]
if alt:
print alt
else:
"該沒有
alt屬性
'--------------------'
except
indexerror
as e:
'該沒有
alt屬性'#
獲取所有部落格標題和詳情
div_list = doc.xpath("//div[@class='post floated-thumb']")
for div in div_list:
a = div.xpath("div[@class='post-thumb']/a")[0]
detai_url = a.xpath("@href")[0]
title = a.xpath("@title")[0]
img = a.xpath("img")[0]
img_src = img.xpath("@src")[0]
print title, detai_url, img_src
'---------------------------'
XPath特殊應用
encoding utf 8 from lxml import etree html1 需要內容1 需要內容2 需要內容3 html2 我左青龍,右白虎,老牛在當中,龍頭在胸口.starts with 屬性名稱,屬性字元相同的部分 selector etree.html html1 content ...
scrapy應用xpath語法
如 等等各種型別xpath語法可以用分號做分隔符來區分標籤 但是最需要注意的是標籤的屬性值和標籤下的內容 以及這個部分 下面將對這兩個部分書寫xpath div a text get 首先鎖定要查詢的父標籤 text response.xpath div id search nature rg ul...
shell cut命令具體應用
cut命令 cut命令用於從檔案或者標準輸入中讀取內容並擷取每一行的特定部分並送到標準輸出。擷取的方式有三種 一是按照字元位置,二是按照位元組位置,三是使用乙個分隔符將一行分割成多個field,並提取指定的fields。cut命令有5個引數,其中 c,b,f分別表示 character byte 以...