import requests
from pyquery import pyquery
import re
import os
# 構造請求頭
headers =
# todo 1.根據**鏈結得到**目錄和對應的url
def get_catalogue(url):
# 傳送請求
response = requests.get(url=url, headers=headers)
response.encoding = "gbk" # 指定編碼
chapter_info_list = # 用來儲存獲取到的所有url和章節標題資料
doc = pyquery(response.text)
# print(doc)
pages_url = doc(".list-charts li a").items()
# print(pages_url)
for page_url in pages_url:
title = page_url.text()
chapter_url = "" + page_url.attr("href")
# print(title, chapter_url)
# 使用字典儲存url和title
chapter = {"title": title, "url": chapter
全本小說網小說爬蟲
coding utf 8 import requests from pyquery import pyquery import re import os 構造請求頭 headers todo 1.根據 鏈結得到 目錄和對應的url def get catalogue url 傳送請求 respons...
python爬蟲17K小說網資料
python爬蟲17k 網資料 有一些庫可能沒有用,當時寫的時候參考了很多書籍資料,書籍裡用了,我沒有用,但是本著懶的原則,我就沒有特意把那些沒有用到的庫刪掉。因為我們老師對注釋特別強調,為了不讓老師抓錯,我就把除了import的 外的 都加了注釋。from bs4 import beautiful...
使用scrapy爬蟲,爬取起點小說網的案例
爬取的頁面為 爬取的 為凡人修仙之仙界篇,這邊 很不錯。正文的章節如下圖所示 其中下面的章節為加密部分,現在暫時無法破解加密的部分。唉.下面直接上最核心的 位於spiders中的核心 coding utf 8 import scrapy from qidian.items import qidian...