筆趣閣小說 python3爬蟲例項

2021-08-29 05:31:52 字數 1295 閱讀 9769

import urllib.request

import re

from bs4 import beautifulsoup as bs

def urlopen(url):

req = urllib.request.request(url)

html = urllib.request.urlopen(req)

html = html.read()

return html

def list1(url):

html = urlopen(url)

html = bs(html,'lxml')

list1 = html.div(id="list")

#這個id是所有折鏈結都在這個div裡面

list1 = list1[0]

#返回的是乙個列表所以要取出來

list1 = list1.find_all('a')

#再從這個列表裡面把所有的鏈結取出來

urllist =

#這裡新建乙個列表來裝鏈結

for i in list1:

i = i.attrs

i = i['href']

i = ''+i

return urllist

def xia(url):

urllist = list1(url)

name = urlopen(url)

name = bs(name,'lxml')

name = name.h1.string

na = name+'.txt'

#檔名以**名加.txt

for i in urllist:

html = urlopen(i)

html = bs(html,'lxml')

h1 = html.h1.string

#這裡是**章節名字

content = html.div(id="content")

content = content[0]

content = content.text

aa = re.compile('\xa0')

content = re.sub(aa,'',content)

#去掉不能解碼的內容

with open( na ,'a')as f:

f.write(h1)

#寫入章節名字

f.write(content)

#這裡是**正文

url= '/18_18820/'

xia(url)

c 筆趣閣小說爬蟲

流年似水,回想上一次博文發表,好像已經是一年多以前,差點就忘了自己是個文件攻城獅的本質,罪過啊。最近在研究爬蟲,python用的不太習慣,還是回歸老本行c 比較好一點,個人又比較喜歡看 所以就選取筆大大做個白老鼠 默哀 寫個爬蟲玩完,迷茫啊。這個專案有幾個比較重要的點 一 正規表示式,參考 二 抓取...

Python爬蟲 筆趣閣小說爬取

import requests from lxml import etree以 我有百萬技能點 為例,在筆趣閣搜尋進入目錄頁,複製目錄頁url 對目錄頁的每個章節的url進行爬取,分析網頁利用xpath定位每個章節的url然後進行爬取,然後重新構造url。目錄每一章節的url href html e...

python3 爬蟲繼續爬筆趣閣 ,,,,,,,

學如逆水行舟,不進則退 今天想看 找了半天,沒有資源.只能自己爬了 想了半天.忘記了這個古老的技能 撿了一下 import requests from bs4 import beautifulsoup cookies headers response requests.get headers hea...