1.工具介紹
1.1我們所需要用到第三方庫
requests #爬蟲所需要的最基本的第三方庫
re #正規表示式
1.2安裝的方式
pip install requests
pip install re
1.3匯入第三方庫的方式
import requests
import re
2.詳細**介紹首先請求我們要訪問的頁面的url(這裡是隨機選擇的筆趣閣的一本**爬取)
url =
''
使用get方法請求資料物件,並給他乙個響應引數
response = requests.get(url)
因為爬取的字型可能會發生亂碼,所以我們在這裡設定一下(這裡的字型編譯不一定要加上,如果下面請求文字的時候發生亂碼就可以加上,或者直接設定為utf-8編碼。)
設定乙個引數接受我們請求響應的物件的文字內容
html_data = response.text
這裡使用正規表示式(此處的 (.*?) 算是正規表示式裡面的乙個萬能提取公式)提取我們的**章節下的url以及標題,並構建乙個列表
result_list = re.findall(
'.*', html_data)
top_10 = result_list[1:11]
在列表裡面迴圈列印出每個章節的小標題以及獲取到章節下的文字內容並列印輸出
for
topin top_10:
all_url =
'' + top
response_2 = requests.get(all_url)
html_data_2 = response_2.text
title = re.findall(
'', html_data_2, re.s)
[0] contend = re.findall(
'(.*?)
', html_data_2, re.s)
[0] print(title, contend)
最後在當前目錄下直接建立乙個資料夾並以章節命名
with open(
'三寸人間\\' + title + '.txt', mode=
'w', encoding=
'utf-8'
) as f:
f.write(contend.replace(
' ', ''
).replace(
'', '\n'
)) print(
3.完整**
import requests
import re
url =
''response = requests.get(url)
html_data = response.text
result_list = re.findall(
'.*', html_data)
top_10 = result_list[1:11]
fortop
in top_10:
all_url =
'' + top
response_2 = requests.get(all_url)
html_data_2 = response_2.text
title = re.findall(
'', html_data_2, re.s)
[0] contend = re.findall(
'(.*?)
', html_data_2, re.s)
[0] print(title, contend)
with open(
'三寸人間\\' + title + '.txt', mode=
'w', encoding=
'utf-8'
) as f:
f.write(contend.replace(
' ', ''
).replace(
'', '\n'
)) print(
4.結果呈現 記爬取某乙個小說
咳,寒假無聊看起 收費章節,日常盜版。然後一搜一堆廣告看著就煩人噢 py爬蟲系列 import requests import time from bs4 import beautifulsoup header defgethtmltext url 照抄就完事了 try r requests.get...
爬取小說的簡易python爬蟲
學習一段時間的python之後決定寫些東西 剛好自己喜歡看 就像寫一段爬取 的爬蟲,這裡以筆趣閣的 為例。我發現筆趣閣的每個 的目錄源 基本都包含其所有的章節的url,所以這段 是先獲取所有的url然後逐頁獲取其文字 import requests 這裡以 天地霸氣訣為例 import re imp...
初學Python爬蟲之簡單爬取小說的網頁鏈結及目錄
學習python的同學想必都知道,python的庫有很多,今天我們就來運用urllib.request庫和re庫來寫乙個簡單的爬蟲 複製 我們要寫乙個爬蟲 首先要有乙個初步的認識,那就我們要爬取的內容是什麼,以及該如何爬取。爬蟲是用來抓取資訊的一段程式或 那麼該如何準確的找到資訊或者說如何把需要的資...