簡單練習
多做多練多看 才可以學的更好
拿來練手 不喜勿噴
import requests
from bs4 import beautifulsoup
urls =
''headers=
html = requests.get(urls,headers=headers)
soup = beautifulsoup(html.text,
'lxml'
)#文章
all_lsit = soup.find_all(
'li'
, class_=
'article-summary'
)#遍歷文章
forall
in all_lsit:
#文章標題
#gettext是獲取文字資訊
title =
all.select_one(
'span.article-title>a'
).gettext(
)print
(f'當前文章'
)#文章內容
name =
all.select_one(
'div.summary-text'
).gettext(
)print
(f'當前段落'
)#獲取文字 並且儲存 到 33.txt文字裡
with
open
('33.txt'
,'a+'
,encoding=
'utf-8'
)as f:
f.write(title)
f.write(name)
這裡是他的文章標題和段落
註明 這我只獲取了他第一頁的所有章節
獲取翻頁內容怎麼辦呢?
請往下看
這裡是1到9頁的所有鏈結位址
大家發現了什麼規律嘛
我們就可以發現翻頁的規律的是 鏈結後面 的是.html是什麼的
我們拼接一下 用for 迴圈一下就能等到所有鏈結
就可以得到所有位址
大家可以想一下看看
.html
總結
知識點如下
bs4 的基本使用
find 直接返回資料
find_all 返回的資料是多個
這裡關於bs4 css選擇器的簡單介紹
select() 返回型別是 list。
select_one() 返回值是list的首個。
這裡說明 想要獲得好資料首先解析必須到位
這裡可以自己看一下別的寫的
html 標籤 包含 子標籤 父標籤 子節點 父節點
這些的掌握了話多去找一些之類的**去爬一下
看看他的標籤結構 嘗試獲取 這些搞定了的話就可以
學一下前後端分離 js渲染 比較棘手的問題
bs4 介紹
因為水平有限 可以簡單看一下下面的部落格位址
css選擇器
會常用的 find 和find_all 函式 在配合 css選擇器會更好
關於bs4 大家可以自己查一下資料 這裡bs4 可以在配合re正則使用哦
加上css 那就更加好了
Python爬蟲抓取笑話
總結 隨著python語言的不斷發展,爬蟲這門技術也越來越重要,很多人都開啟了自己的爬蟲之路,本文就介紹了爬蟲的功能。跟著我帶你走進爬蟲的大門 爬蟲是可以有規則的提取html的內容,獲取到我們需要的物件,爬蟲的高效和簡單讓我們爬蟲愛好者更加喜歡它 如下 示例 import requests impo...
笑話大全內容爬取
要求字段至少包括笑話分類,笑話 笑話標題,笑話內容,笑話url import re,time,random import requests import pymysql from lxml import etree headers 獲取笑話分類url div class filter links c...
Python1 糗事百科笑話爬取
剛剛入門python,一切都是摸索階段。把自己的問題記錄下來避免之後再犯相同的錯誤。運氣好或許還能幫助有緣人 o python的簡單入門主要需要看兩個文件 requests和bs4。鏈結如下 requests bs4在真正開始寫自己的第乙個爬蟲的例項前,在網上看了其他許多大神的教程。這裡是我第乙個複...