幾天沒上csdn部落格,不知道為什麼給我csdn首頁改了, 不是以前的網頁布局了,所以之前寫的csdn部落格爬蟲也就宣告失效,所以今天修改了下之前寫的xpath爬蟲,正則爬蟲就沒改了,改的有點麻煩
# -*- coding:gbk -*-
import sys
import requests
import re
from lxml import etree
from lxml import html as ht
defdownload
(url):
html=requests.get(url,headers=headers).text
return html
html2=download("")
selector2=etree.html(html2)
pagelist=selector2.xpath('//*[@id="papelist"]/a[last()-2]/text()')[0]
#這裡有有個潛在的問題,在我部落格寫到5頁以上時出現...後無法判斷頁數
pagelist=int(pagelist)
for page in range(1,pagelist+1):
url="/article/list/"+str(page)
html=download(url)
selector=etree.html(html)
titlelist=selector.xpath('//*[@class="link_title"]/a/text()')
datelist=selector.xpath('//*[@class="article_manage"]/span[1]/text()')
#/text()!!!!!!!!!!!!!!!!!!!!!!!
number=len(titlelist)
for i in range(1,number+1):
tree=ht.fromstring(titlelist[i-1])
strcom=tree.xpath('string(.)')
print(datelist[i-1]+"----"+strcom)
爬蟲練習 CSDN部落格歸檔
獲取指定網頁的頁面資訊 headers try 如果響應的狀態碼為404並不會丟擲一場,那麼如何讓處理?response requests.get url,headers headers response.raise for status 如果返回的狀態碼不是200,那麼丟擲異常 except ex...
基於WebMagic的CSDN部落格爬蟲
剛入職沒有多久,開發任務不是太重,很多功能的開發不能全部參與,閒暇之餘,mentor給了乙個小的開發任務 把美周內部共享的電子書全部爬取下來 其實剛接到這個任務不知道怎麼入手,便查了相關的爬蟲工具,如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...
Python爬蟲刷CSDN部落格閱讀數
本部落格僅做技術交流。刷部落格訪問量可恥。原始碼語言為python3。這裡採用西刺免費 ip 先爬取這些免費的ip,然後偽裝成這些ip訪問指定的部落格,從而增加指定文章的閱讀數。以下原始碼以博主的csdn賬號為例,將url自行修改即可訪問自己的博文。注意 刷的太快伺服器並不會增加文章的閱讀數,可自行...