一直都說想學爬蟲,前兩天就開始認真在b站看了一下爬蟲,其實之前也看過一點,但是之前看的那個是用urllib的 用起來就比較麻煩.然後這次在b站找到的乙個還不錯,直接奉上鏈結吧:
到目前為止看到了bs4的實戰(其實還沒有開始看這一集), 因為看了前面的requests 正則 bs4的簡單的基礎內容之後,我覺得我可以完成這一集的實戰內容,就利用中午休息的時間完成了這一集的內容(可能效率會**慢了點)總的來說還算是成功的.走了走了繼續看爬蟲了
以下就是爬取三國演義所有內容的**:
# 需求: 爬取三國演義**所有的章節標題和章節內容
import requests
from bs4 import beautifulsoup
import os
ifnot os.path.exists(
'./三國演義'):
os.mkdir(
'./三國演義'
)url =
''headers =
# a標籤鏈結儲存列表
list_link =
# 頁面提取 -> obj
list_page = requests.get(url=url, headers=headers)
.text
soup = beautifulsoup(list_page,
'lxml'
)# 提取所有a標籤
list_a = soup.select(
'.book-mulu a'
)# 遍歷a標籤並提取鏈結儲存
for i in
range
(len
(list_a)):
article_page = requests.get(url=
''+ soup.select(
'.book-mulu a'
)[i]
['href'],
headers=headers)
.text # 獲取目錄得到的內容頁鏈結
article_soup = beautifulsoup(article_page,
'lxml'
) title = article_soup.find(
'h1'
).get_text(
)# 定位標題並提取文字
title = title +
'.txt'
# 建立txt檔名
article = article_soup.find(
'div'
, class_=
'chapter_content'
).get_text(
)# 定位內容並提取文字
article_path =
'./三國演義/'
+ title # 設定儲存路徑
# 持久化儲存
with
open
(article_path,
'w', encoding=
'utf-8'
)as fp:
fp.write(article)
print
(title,
)print
('over!!!'
)
python爬蟲框架Pyspider初次接觸
我分別在linux window上都安裝過pyspider,window上貌似有問題。以下是我改寫的一段 usr bin env python encoding utf 8 created on 2018 04 18 07 17 21 project emeraldinsight from pysp...
python爬蟲實戰
python python基礎 python快速教程 python學習路線圖 python大資料學習之路 python爬蟲實戰 python pandas技巧系 量化小講堂 python機器學習入門資料梳理 學習群 大資料 python資料探勘2 323876621 r r語言知識體系 怎樣學習r ...
Python爬蟲實戰(二)
實驗介紹 本實驗通過使用beautifulsoup方法對網頁進行簡單的爬取工作,並對beatifulsoup方法進行簡單的介紹。beautifulsoup開發手冊 示例網頁如下 實驗內容 從本地網頁爬取商品資訊,商品名,評分等級等相關資訊 實驗 from bs4 import beautifulso...