:"""獲取指定網頁的頁面資訊"""
headers =
try:
# 如果響應的狀態碼為404並不會丟擲一場, 那麼如何讓處理?
response = requests.get(url, headers=headers)
response.raise_for_status(
)# 如果返回的狀態碼不是200, 那麼丟擲異常
except exception as e:
('[-] 爬取失敗:'
, e)
else
:# print('[+]' + response.url, "爬取成功....")
# print(len(response.text))
return response.text
defparser_content
(html)
:"""解析頁面內容: 獲取部落格名稱和部落格鏈結"""
# 1. 例項化soup物件
from bs4 import beautifulsoup
soup = beautifulsoup(html,
'lxml'
)# print(soup)
# print(soup.prettify())
# 2. 分析頁面, 獲取內容;
# print(soup.title.text)
# 獲取部落格分類, 用列表儲存
classify_lists = soup.body.find(
'ul'
, class_=
'colu_cate_list'
).find_all(
'li'
)for cl in classify_lists:
classify_name = cl.a.text # 獲取分類名,用於後續建立檔案
classify_url = cl.a.get(
'href'
)# 獲取分類的連線
article_content = get_content(classify_url)
# 獲取當前分類的頁面資訊
article_soup = beautifulsoup(article_content,
'lxml'
)# 獲取文章資訊,列表儲存
article_lists = article_soup.body.find(
'ul'
, class_=
'colu_author_c'
).find_all(
'li'
)# print(article_lists)
# print(soup.body.prettify())
# print(soup.body.div)
ifnot os.path.exists(
'blog_classify'):
# 建立儲存分類md檔案的目錄
os.makedirs(
'blog_classify'
) f =
open
('./blog_classify/%s.md'
% classify_name,
'w')
# 以當前分類命名
for article in article_lists:
# 儲存當前分類的所有文章標題連線
# 獲取標題
blogname = article.h4.a.text
# 獲取鏈結
blogurl = article.h4.a.get(
'href'
) f.write(
'- [%s](%s)\n'
%(blogname, blogurl)
) f.close(
)if __name__ ==
'__main__'
: url =
''content = get_content(url)
parser_content(content)
csdn部落格爬蟲更新
幾天沒上csdn部落格,不知道為什麼給我csdn首頁改了,不是以前的網頁布局了,所以之前寫的csdn部落格爬蟲也就宣告失效,所以今天修改了下之前寫的xpath爬蟲,正則爬蟲就沒改了,改的有點麻煩 coding gbk import sys import requests import re from...
基於WebMagic的CSDN部落格爬蟲
剛入職沒有多久,開發任務不是太重,很多功能的開發不能全部參與,閒暇之餘,mentor給了乙個小的開發任務 把美周內部共享的電子書全部爬取下來 其實剛接到這個任務不知道怎麼入手,便查了相關的爬蟲工具,如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...
Python爬蟲刷CSDN部落格閱讀數
本部落格僅做技術交流。刷部落格訪問量可恥。原始碼語言為python3。這裡採用西刺免費 ip 先爬取這些免費的ip,然後偽裝成這些ip訪問指定的部落格,從而增加指定文章的閱讀數。以下原始碼以博主的csdn賬號為例,將url自行修改即可訪問自己的博文。注意 刷的太快伺服器並不會增加文章的閱讀數,可自行...