2k**網爬取最近大火的《東宮》**,借鑑之前看過的一段**,修改之後,進行簡單爬取。
from urllib import request
from bs4 import beautifulsoup
url=''
req=request.request(url)
response=request.urlopen(req)
html=response.read()
soup=beautifulsoup(html,'html.parser')
soup_text=soup.find_all('dd')[4:]
f= open('desktop/donggong.doc','w',encoding='utf-8')
for link in soup_text:
url2=''+link.a.get('href')
req2=request.request(url2)
response2=request.urlopen(req2)
html2=response2.read()
soup2=beautifulsoup(html2,'html.parser')
soup_text2=soup2.find('p',class_="text").text
soup_text3=soup_text2.replace('東宮最新章節','')
soup_text3=soup_text3.replace('2k**網歡迎您!本站網域名稱:"2k**"的完整拼音fpzw.com,很好記哦!www.fpzw.com 好看的**','')
soup_text3=soup_text3.replace('強烈推薦:','')
f.write(soup_text3)
f.write('\n\n')
f.close()
爬取的結果沒進行精細處理,後續待優化。
Python 爬蟲(獲取小說)
以 筆趣閣 為例 需求 python3版本以上 安裝方法如下 先安裝python3 pip,然後檢查下版本,如果版本可以公升級,就 upgrade pip 一下,然後再安裝beautifulsoup4 sudo apt get install python3 pip pip3 version pip...
python 爬蟲,抓取小說
coding utf 8 from bs4 import beautifulsoup from urllib import request import re import os,time 訪問url,返回html頁面 defget html url req request.request url ...
Python製作爬蟲採集小說
開發工具 python3.4 作業系統 win8 主要功能 去指定 網頁爬 目錄,按章節儲存到本地,並將爬過的網頁儲存到本地配置檔案。被爬 名稱 靈棺夜行 出處 本人親自碼的 print 獲取列表完成 url path url file.txt url r open url path,r url a...