直接上**:
import urllib.request
import urllib.parse
import re
def handle_request(url, page=none):
if page != none:
url = url + str(page) + '.html'
#print(url)
headers =
request = urllib.request.request(url=url, headers=headers)
return request
def get_text(a_href):
#呼叫函式,構建請求物件
request = handle_request(a_href)
#傳送請求,獲得響應
content = content = urllib.request.urlopen(request).read().decode()
pattern = re.compile(r'(.*?)
',re.s)
lt = pattern.findall(content)
text = lt[0]
#將內容裡面所有的內容標籤全部清空
pat = re.compile(r'')
text = pat.sub('',text)
# print(lt)
return text
def parse_content(content):
#寫正則
#人生有時很難但願你學會堅強——告誡年輕人的經典勵志語錄
#(/lizhi/qianming/\d+\.html)的括號是為了獲取/lizhi/qianming/20190841364.html這個內容位址
pattern = re.compile(r'')
#返回的lt是乙個列表,列表中的元素都是元組,
# 元組中第乙個元素就是正則中第乙個小括號匹配到的內容,
# 元組中第二個元素就是正則中第二個小括號匹配到的內容
lt = pattern.findall(content)
# print(lt)
# print(len(lt))
for href_title in lt:
a_href = '' + href_title[0]
#獲取標題
title = href_title[-1]
#向a_href傳送請求,獲取響應內容
text = get_text(a_href)
string = '%s/%s' % (title,text)
with open('lizhi.html', 'a', encoding='utf8') as fp:
fp.write(string)
def main():
url = '/lizhi/qianming/list_50_'
start_page = int(input('請輸入起始頁碼:'))
end_page = int(input('請輸入結束頁碼:'))
for page in range(start_page, end_page + 1):
#根據url和page生成指定的request
#生成請求物件
request = handle_request(url, page)
# 傳送請求物件,獲取請求內容
content = urllib.request.urlopen(request).read().decode()
parse_content(content)
print()
print()
if __name__ =='__main__':
main()
完了之後會在當前目錄下生成乙個
lizhi.html
檔案,開啟如下圖:
python爬蟲 爬取勵志語錄
將爬取到的網頁寫入檔案中import urllib.request 爬取勵志語錄import urllib.request import urllib.parse import re import os import time start page int input 請輸入開始頁面 end pag...
CSDN文章爬取
title csdn文章爬取 date 2019 06 09 13 17 26 tags 找到文章列表,進行文章爬取,提取到文章的url資訊。進行文章內容的解析,提取文章內容。儲存到本地。嘗試對文章樣式進行儲存 採用python語言來完成,使用pyquery庫進行爬取。article doc blo...
一些勵志的句子
1 人生,最寶貴的莫過於光陰。人生,最璀璨的莫過於事業。人生,最快樂的莫過於奮鬥。2 乙個今天勝過兩個明天。3 吃得苦中苦,方為人上人。4 我越努力,我的運氣就越好。5 征服世界,並不偉大,乙個人能征服自己,才是世界上最偉大的人。6 行動快一點,說話輕一點,效率高一點,微笑露一點,腦筋活一點。7 理...