Python爬蟲練習二 爬取筆趣閣小說

2021-08-20 08:38:11 字數 936 閱讀 4884

爬取這個****真的很easy!很有成就感~適合爬蟲的初學者!

以乙個叫《凡人修仙傳仙劍篇》的**作為目標進行爬取測試。

廢話不多說,上**!

import requests

from bs4 import beautifulsoup

aimurl=""#爬蟲目標**

url=""#href前面的內容

#輸入** 獲得網頁的soup

def getsoup(url):

res=requests.get(url) #以get方法訪問目標**獲取網頁資訊

res.encoding= 'gb2312'#該網頁是以gb2312的編碼形式顯示的

soup=beautifulsoup(res.text, 'html.parser')#使用美麗湯解析網頁內容

return soup

soup=getsoup(aimurl)

chapterlist=#存放章節的url

chaptertextlist=#存放章節標題

for i in soup.select('.box_con #list a'):

#分析章節內容,並寫入txt文字

for i,j in zip(chapterlist,chaptertextlist):

tempsoup = getsoup(i)

temptext=tempsoup.select('#content')[0].text#正文內容在屬性content下 class用.xx 屬性#

path=r'e:\fanren.txt'

with open(path,'a',encoding='utf-8') as f:

f.write(j+'\n'+temptext+'\n')

沒有太多要說明的,通過更改aimurl基本可以實現爬取該****的任何一部**。

Python爬蟲 筆趣閣小說爬取

import requests from lxml import etree以 我有百萬技能點 為例,在筆趣閣搜尋進入目錄頁,複製目錄頁url 對目錄頁的每個章節的url進行爬取,分析網頁利用xpath定位每個章節的url然後進行爬取,然後重新構造url。目錄每一章節的url href html e...

初級爬蟲爬取筆趣閣小說

import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...

用爬蟲爬取筆趣閣小說

時間 2019年3月4日19 16 06 功能 爬取筆趣閣任何 from urllib import request from bs4 import beautifulsoup 此函式用來獲取每章對應的 並儲存 defsecondopenurl url,ch name 請求每章詳細內容 date r...