爬取笑話大全

2021-10-22 19:28:40 字數 1782 閱讀 4185

簡單練習

多做多練多看 才可以學的更好

拿來練手 不喜勿噴

import  requests

from bs4 import beautifulsoup

urls =

''headers=

html = requests.get(urls,headers=headers)

soup = beautifulsoup(html.text,

'lxml'

)#文章

all_lsit = soup.find_all(

'li'

, class_=

'article-summary'

)#遍歷文章

forall

in all_lsit:

#文章標題

#gettext是獲取文字資訊

title =

all.select_one(

'span.article-title>a'

).gettext(

)print

(f'當前文章'

)#文章內容

name =

all.select_one(

'div.summary-text'

).gettext(

)print

(f'當前段落'

)#獲取文字 並且儲存 到 33.txt文字裡

with

open

('33.txt'

,'a+'

,encoding=

'utf-8'

)as f:

f.write(title)

f.write(name)

這裡是他的文章標題和段落

註明 這我只獲取了他第一頁的所有章節

獲取翻頁內容怎麼辦呢?

請往下看

這裡是1到9頁的所有鏈結位址

大家發現了什麼規律嘛

我們就可以發現翻頁的規律的是 鏈結後面 的是.html是什麼的

我們拼接一下 用for 迴圈一下就能等到所有鏈結

就可以得到所有位址

大家可以想一下看看

.html

總結

知識點如下

bs4 的基本使用

find 直接返回資料

find_all 返回的資料是多個

這裡關於bs4 css選擇器的簡單介紹

select() 返回型別是 list。

select_one() 返回值是list的首個。

這裡說明 想要獲得好資料首先解析必須到位

這裡可以自己看一下別的寫的

html 標籤 包含 子標籤 父標籤 子節點 父節點

這些的掌握了話多去找一些之類的**去爬一下

看看他的標籤結構 嘗試獲取 這些搞定了的話就可以

學一下前後端分離 js渲染 比較棘手的問題

bs4 介紹

因為水平有限 可以簡單看一下下面的部落格位址

css選擇器

會常用的 find 和find_all 函式 在配合 css選擇器會更好

關於bs4 大家可以自己查一下資料 這裡bs4 可以在配合re正則使用哦

加上css 那就更加好了

Python爬蟲抓取笑話

總結 隨著python語言的不斷發展,爬蟲這門技術也越來越重要,很多人都開啟了自己的爬蟲之路,本文就介紹了爬蟲的功能。跟著我帶你走進爬蟲的大門 爬蟲是可以有規則的提取html的內容,獲取到我們需要的物件,爬蟲的高效和簡單讓我們爬蟲愛好者更加喜歡它 如下 示例 import requests impo...

笑話大全內容爬取

要求字段至少包括笑話分類,笑話 笑話標題,笑話內容,笑話url import re,time,random import requests import pymysql from lxml import etree headers 獲取笑話分類url div class filter links c...

Python1 糗事百科笑話爬取

剛剛入門python,一切都是摸索階段。把自己的問題記錄下來避免之後再犯相同的錯誤。運氣好或許還能幫助有緣人 o python的簡單入門主要需要看兩個文件 requests和bs4。鏈結如下 requests bs4在真正開始寫自己的第乙個爬蟲的例項前,在網上看了其他許多大神的教程。這裡是我第乙個複...