筆趣閣小說 python3爬蟲例項

import urllib.request
import re
from bs4 import beautifulsoup as bs
def urlopen(url):
req = urllib.request.request(url)
html = urllib.request.urlopen(req)
html = html.read()
return html
def list1(url):
html = urlopen(url)
html = bs(html,'lxml')
list1 = html.div(id="list")
#這個id是所有折鏈結都在這個div裡面
list1 = list1[0]
#返回的是乙個列表所以要取出來
list1 = list1.find_all('a')
#再從這個列表裡面把所有的鏈結取出來
urllist = 
#這裡新建乙個列表來裝鏈結
for i  in list1:
i = i.attrs
i = i['href']
i = ''+i
return urllist
def xia(url):
urllist = list1(url)
name = urlopen(url)
name = bs(name,'lxml')
name = name.h1.string
na = name+'.txt'
#檔名以**名加.txt
for i in urllist:
html = urlopen(i)
html = bs(html,'lxml')
h1 = html.h1.string
#這裡是**章節名字
content = html.div(id="content")
content = content[0]
content = content.text
aa = re.compile('\xa0')
content = re.sub(aa,'',content)
#去掉不能解碼的內容
with open( na ,'a')as f:
f.write(h1)
#寫入章節名字
f.write(content)
#這裡是**正文
url= '/18_18820/'
xia(url)

c 筆趣閣小說爬蟲

流年似水，回想上一次博文發表，好像已經是一年多以前，差點就忘了自己是個文件攻城獅的本質，罪過啊。最近在研究爬蟲，python用的不太習慣，還是回歸老本行c 比較好一點，個人又比較喜歡看所以就選取筆大大做個白老鼠默哀寫個爬蟲玩完，迷茫啊。這個專案有幾個比較重要的點一正規表示式，參考二抓取...

Python爬蟲筆趣閣小說爬取

import requests from lxml import etree以我有百萬技能點為例，在筆趣閣搜尋進入目錄頁，複製目錄頁url 對目錄頁的每個章節的url進行爬取，分析網頁利用xpath定位每個章節的url然後進行爬取，然後重新構造url。目錄每一章節的url href html e...

python3 爬蟲繼續爬筆趣閣 ,,,,,,,

學如逆水行舟,不進則退今天想看找了半天,沒有資源.只能自己爬了想了半天.忘記了這個古老的技能撿了一下 import requests from bs4 import beautifulsoup cookies headers response requests.get headers hea...

筆趣閣小說 python3爬蟲例項

c 筆趣閣小說爬蟲

Python爬蟲 筆趣閣小說爬取

python3 爬蟲繼續爬筆趣閣 ,,,,,,,

相關推薦

Python爬蟲筆趣閣小說爬取