需求:使用bs4實現將詩詞名句**中三國演義**的每一章的內容爬去到本地磁碟進行儲存
1爬蟲**from
bs4 import beautifulsoup
2import requests
34 url = '
'5 headers =
89 page_text = requests.get(url=url,headers=headers).text
1011
#解析:章節的標題 詳情頁的url
12 soup = beautifulsoup(page_text,'
lxml')
13 li_list = soup.select('
.book-mulu > ul > li')
14 fp = open('
./xiaoshuo.txt
','w
',encoding='
utf-8')
15for li in
li_list:
16 title = li.a.string
17 detail_url = '
'+li.a['
href']
1819
#對詳情頁發起請求
20 detail_page_text = requests.get(url=detail_url,headers=headers).text
21 soup = beautifulsoup(detail_page_text,'
lxml')
22#返回的文字內容是一整個字串資料
23 text = soup.find('
div',class_='
chapter_content
').text
2425 fp.write(title+"
\n"+text)
26fp.close()
27 print('
over!!!
')
Python 爬蟲 xpath bs4 re小實戰
1 爬取糗事百科 前5頁 利用正規表示式 2import requests 請求資料 4from urllib import request 5import re 正則6 糗事百科 位址7 普通get請求獲取 8 k 0 9for i in range 1,6 10 url f 11 ua偽裝防止識...
python爬蟲實訓報告 python爬蟲實習?
看到問題,挺感慨的。我是化工碩士,現在轉行在做爬蟲。基本一路都是自學,也遇到過你所說的 哭 的時候,能 哭,無非就是知識積累不夠,又無從尋找答案,那怎麼辦呢?一 補基礎咯。說到爬蟲,無非就是怎麼從網頁抓取資料,那你肯定要知道web是怎麼回事,當你發出乙個網路請求的時候,都發生了什麼?當你需要登入的時...
python爬蟲之re requests實戰
錯誤如下 但是第一次爬取就可以,有大佬可以指導一下 如下 encoding utf 8 import requests import re import time def gethtml1 url bs r requests.get url,headers bs,timeout 60 pattern...