1、笑話**—zol笑話大全:我們獲取笑話/段子的資料**
2、requests模組,用於http形式請求訪問網頁
3、beautifulsoup模組,用於解析獲取到的網頁內容
首先利用requests模組獲取zol笑話大全網頁原始碼,再通過beautifulsoup模組進一步篩選獲得笑話文字內容,最終儲存在本地檔案joke.txt
1、本**預設迴圈10次,即獲取10個笑話內容,如需獲取更多或更少笑話,可自行調整引數
for i in
range(10
)
2、本**預設將獲取的笑話內容,儲存到python指令碼所在目錄的joke.txt檔案,如需修改儲存路徑,可自行操作
with
open
('joke.txt'
,mode =
'a+')as
file
:
import requests
from bs4 import beautifulsoup
headers =
#設定**,破解簡單的反爬機制
for i in
range(10
):#迴圈10次,意思為檢索笑話網10個頁面
resp = requests.get(
''.format
(i), headers = headers)
html=resp.text
soup =beautifulsoup(html,
'lxml'
)#對網頁內容進行解析
print
(soup.select(
'.article-title')[
0].text)
print
(soup.select(
'.article-text')[
0].text)
print
(soup.select(
'.article-source a')[
0].text)
with
open
('joke.txt'
,mode =
'a+')as
file
:#將獲取到的笑話儲存在本地檔案joke.txt中
Python實戰爬蟲 爬取段子
不管三七二十一我們先導入模組 段子所在的 import re import requests 如果沒這模組執行cmd pip install requests領域 web開發,爬蟲,資料分析,資料探勘,人工智慧 零基礎到專案實戰,7天學習上手做專案 獲取 的內容 段子所在的 import re im...
Python爬蟲抓取笑話
總結 隨著python語言的不斷發展,爬蟲這門技術也越來越重要,很多人都開啟了自己的爬蟲之路,本文就介紹了爬蟲的功能。跟著我帶你走進爬蟲的大門 爬蟲是可以有規則的提取html的內容,獲取到我們需要的物件,爬蟲的高效和簡單讓我們爬蟲愛好者更加喜歡它 如下 示例 import requests impo...
request 獲取各種路徑
從request獲取各種路徑總結 request.getrealpath url 虛擬目錄對映為實際目錄 request.getrealpath 網頁所在的目錄 request.getrealpath 網頁所在目錄的上一層目錄 request.getcontextpath 應用的web目錄的名稱 如...