學習一段時間的python之後決定寫些東西 剛好自己喜歡看**就像寫一段爬取**的爬蟲,這裡以筆趣閣的**為例。
我發現筆趣閣的每個**的目錄源**基本都包含其所有的章節的url,所以這段**是先獲取所有的url然後逐頁獲取其文字
import requests #這裡以**天地霸氣訣為例
import re
import bs4
import os
path=open("天地霸氣訣.txt",'a',encoding='utf-8')
biaoti=''
r=requests.get('')
demo=r.text
soup=bs4.beautifulsoup(demo,"html.parser")
xx=soup("a")
bb=s=0
for i in xx:
s+=1
if s >= 25:
#print(i["href"])
for i in bb:
url=''+i
r=requests.get(url)
demo=r.text
soup=bs4.beautifulsoup(demo,"html.parser")
if biaoti == soup.title.get_text():
continue
title='\t\t'+soup.title.get_text()+'\n'
biaoti = soup.title.get_text()
path.write(title)
print(title)
aa=soup.find_all('div',)
ss=aa[0].get_text()
path.write(ss)
path.close()
Python爬蟲例項,爬取小說
import pprint import requests from bs4 import beautifulsoup 獲取原始碼 defget source url r requests.get url if r.status code 200 print r.status code 錯誤 rai...
爬蟲之小說爬取
以筆趣閣 為例,爬取一念永恆這本 具體 如下 1 from bs4 import beautifulsoup 2from urllib import request 3import requests 4importre5 import sys6 def down this chapter chapt...
python爬蟲爬取網路小說
首先,獲取html頁面並解析,為方便儲存和使用頁面的encoding,直接使用全域性變數 章節名章節名 章節名.從結構可以看出,可以先獲取目錄的頂層標籤 class box 的標籤 然後再獲取該標籤內所有的li標籤即可。由於頁面內有其他的class box 的標籤,因此本次使用soup.find s...