import urllib.request
import re
from bs4 import beautifulsoup as bs
def urlopen(url):
req = urllib.request.request(url)
html = urllib.request.urlopen(req)
html = html.read()
return html
def list1(url):
html = urlopen(url)
html = bs(html,'lxml')
list1 = html.div(id="list")
#這個id是所有折鏈結都在這個div裡面
list1 = list1[0]
#返回的是乙個列表所以要取出來
list1 = list1.find_all('a')
#再從這個列表裡面把所有的鏈結取出來
urllist =
#這裡新建乙個列表來裝鏈結
for i in list1:
i = i.attrs
i = i['href']
i = ''+i
return urllist
def xia(url):
urllist = list1(url)
name = urlopen(url)
name = bs(name,'lxml')
name = name.h1.string
na = name+'.txt'
#檔名以**名加.txt
for i in urllist:
html = urlopen(i)
html = bs(html,'lxml')
h1 = html.h1.string
#這裡是**章節名字
content = html.div(id="content")
content = content[0]
content = content.text
aa = re.compile('\xa0')
content = re.sub(aa,'',content)
#去掉不能解碼的內容
with open( na ,'a')as f:
f.write(h1)
#寫入章節名字
f.write(content)
#這裡是**正文
url= '/18_18820/'
xia(url)
c 筆趣閣小說爬蟲
流年似水,回想上一次博文發表,好像已經是一年多以前,差點就忘了自己是個文件攻城獅的本質,罪過啊。最近在研究爬蟲,python用的不太習慣,還是回歸老本行c 比較好一點,個人又比較喜歡看 所以就選取筆大大做個白老鼠 默哀 寫個爬蟲玩完,迷茫啊。這個專案有幾個比較重要的點 一 正規表示式,參考 二 抓取...
Python爬蟲 筆趣閣小說爬取
import requests from lxml import etree以 我有百萬技能點 為例,在筆趣閣搜尋進入目錄頁,複製目錄頁url 對目錄頁的每個章節的url進行爬取,分析網頁利用xpath定位每個章節的url然後進行爬取,然後重新構造url。目錄每一章節的url href html e...
python3 爬蟲繼續爬筆趣閣 ,,,,,,,
學如逆水行舟,不進則退 今天想看 找了半天,沒有資源.只能自己爬了 想了半天.忘記了這個古老的技能 撿了一下 import requests from bs4 import beautifulsoup cookies headers response requests.get headers hea...