爬蟲實戰一爬取新筆趣閣小說1 0

每天早上上班地鐵上很多人都在看**打發時間，我也是乙個玄幻**迷，那麼就從寫乙個****的爬蟲開始吧。

可以開始了

一、確定目標和思路

瀏覽**之後做出如下打算：

爬蟲功能：

1、輸入要搜尋的**

2、跳到目標**url

3、按章節爬取

4、先按**《伏天氏》來吧，覺都不是打廣告啊，這**我看了好久了，啥主角就愛裝比，不建議大家看。

第一步提交要搜尋的**，並返回列印內容、

#!/usr/bin/python3
#_*_coding:utf-8_*_
#god_mellon
import requests
import re
book_name=
'伏天氏 '
url=
''+ 'keyword='+ book_name
print(url)
keyword=book_name
resp=requests.get(url)
print(
"請求狀態：",resp.status_code)
print(resp.encoding) 
resp.encoding=
'utf-8'
resp=resp.text
#print(resp)

第二步：正則提取目標**url

pattern=re.compile(r''
)##正則抓取書名鏈結
book_url=pattern.search(resp).group(
)print(

執行結果：

keyword=伏天氏請求狀態： 200 utf-8

第三步：獲取**章節

pattern2=re.compile(r'/\d_\d/\d\.html'
)chapters_url=pattern2.findall(resp2)
print(chapters_url)

第四步：先爬取一章**內容

test_url=
''test_resp=requests.get(test_url)
test_resp.encoding=
'utf-8'
test_resp=test_resp.text
#print(test_resp)
pattern3=re.compile(r'(.*)')
text1=pattern3.findall(test_resp)
#print(text1)
text1=
''.join(text1)             
pattern4=re.compile(r'
')    
text2_rm_br=pattern4.sub(
'\n',text1)
#print(text2_rm_br)
pattern5=re.compile(r' '
)  text3_rm_nbsp_br=pattern5.sub(
' ',text2_rm_br)
####替換空格
print(text3_rm_nbsp_br)

執行結果：

keyword=伏天氏請求狀態： 200 網頁編碼方式 utf-8 正文開始：神州歷2023年秋，東海，青州城。青州學宮，青州城聖地，青州城豪門貴族以及宗門世家內半數以上的強者，都從青州學宮走出。

ps：還有很多需要完善的地方，接下來幾天我會不斷的改進優化。

更新：

爬蟲實戰一爬取新筆趣閣小說2 0

在昨天的基礎上增加了以下內容一獲取簡介 ddef get jianjie pattern description re.compile r description scontent resp description pattern description.findall resp2 resp ...

Python爬取新筆趣閣小說

1 首先就是先安裝第三方庫requests,這個庫，開啟cmd，輸入pip install requests回車就可以了，等待安裝。然後測試 import resquests2 然後就可以編寫程式了，首先獲取網頁源也可以在瀏覽器檢視和這個進行對比。s requests.session url ht...

初級爬蟲爬取筆趣閣小說

import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...

爬蟲實戰 一 爬取新筆趣閣小說1 0

爬蟲實戰 一 爬取新筆趣閣小說2 0

Python爬取新筆趣閣小說

初級爬蟲爬取筆趣閣小說

相關推薦

爬蟲實戰一爬取新筆趣閣小說1 0

爬蟲實戰一爬取新筆趣閣小說2 0