上一章節小編用python爬取了「斗羅大陸」單本**,經過週末馬不停蹄、加班加點、抓耳撓腮的搬磚。終於在今天,經過優化處理後,一款基於python爬蟲來爬取千千****的程式出來了,主要功能有以下幾點:
下面,開始展示成果吧,哈哈哈哈:
頁數查詢結果顯示
資料夾儲存展示
"""判斷儲存路徑是否存在,不存在就新建
:param book_name: 書籍名稱
:return:
"""base_dir = path(__file__).parent.joinpath("book")
if not os.path.exists(base_dir):
os.mkdir(base_dir)
return base_dir.joinpath(book_name)
依舊是新建檔案……
看頁面,注意觀察到第一頁的url為,當檢視第二頁、第三頁…時候的url時,後面就多了個
頁數+.html
,例如第二頁的url值是這樣的2.html
。於是,小編得出這樣的乙個想法:url=頁數.html
。
封裝乙個函式,開始進行處理.....
這裡也可以改成定義乙個起始頁數、乙個結束頁數,這樣就更方便查詢了,小夥伴們可以試試哈。
啟用萬能工具f12,指定定位到**名稱,然後….小編驚喜的看到,可以通過獲取href的屬性值就可以直接獲取完整的**目錄url(終於不用拼接了呀),同理,通過title屬性值就能得到**名稱,nice!!!!
之前儲存的字典,現在可以用上了…通過遍歷之前字典的索引值及書籍名稱,控制台進行展示。
def show_name(page: int):
"""顯示書籍名稱及索引值
:param page: 頁碼
:return:
"""for i in article_url_list(page):
# 列印索引編碼和書籍名稱
print(f"編號: - 書籍名稱:")
集合乙個入口函式,直接呼叫執行即可:
**名稱與url的存入和取出,建議列印出來後對照著來除錯取值會快很多。
input的使用位置存放的不好,後來經過和小夥伴的談論後進行了重新修改,**整體舒服多了。
未完,待續…
一直都在努力,希望您也是!
Python爬取小說
感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...
python 爬取小說
前些天突然想看一些 可能是因為壓力大,所以就要有補償機制吧。為了節省流量,就想著把內容爬下來,然後就可以在路上看了。於是有了下面的指令碼。usr bin env python coding utf 8 import requests from lxml import etree 為了解決unicod...
python爬取小說
一 準備 安裝 requests pyquery庫 二 使用 定義了search類 初始化時傳入 第一章url 和 名即可 再呼叫all content方法即可 coding utf8 import re import requests from requests.exceptions import...