1## bs4 文件#爬取糗事百科**(前5頁) ·##利用正規表示式
2import requests #
請求資料
4from urllib import request #
5import re #正則6
#糗事百科**位址7#
普通get請求獲取
8 k =0
9for i in range(1,6):
10 url = f'
'11#ua偽裝防止識破
12 headers =15#
獲取響應物件response
16 res = requests.get(url, headers=headers)17#
利用正規表示式findall,返回列表,re.s 是用來在html中的/t/n等解決方式
1#爬取糗事百科**(前5頁) ##利用bs4
2import requests #
請求資料
3from bs4 import beautifulsoup #
資料分析
4from urllib import request #5#
糗事百科**位址6#
普通get請求獲取
7 k =0
8for i in range(1,6):
9 url = '
'10#ua偽裝防止識破
11 headers =14#
獲取響應物件response
15 res = requests.get(url, headers=headers)
16 text =res.text17#
例項化beautifulsoup物件
18 soup = beautifulsoup(text,"
lxml")
19#尋找相關資料
20 img_urls = soup.find_all(class_="
illustration")
21#遍歷位址
22for img_url in
img_urls:
23 k += 124#
拼接完整位址
#爬取糗事百科**(前5頁)
2import requests #
請求資料
3from lxml import etree#
資料分析
4from urllib import request #5#
糗事百科**位址6#
普通get請求獲取
7 k =0
8for i in range(1,6):
9 url = '
'10#ua偽裝防止識破
11 headers =14#
獲取響應物件response
15 res = requests.get(url, headers=headers)
16 text =res.text17#
將字串格式的檔案轉化為html文件
python爬蟲的xpath bs4 re方法
1.re正規表示式 正規表示式分析 找開始和結束標籤,兩個標籤之間把想要的內容需要包含進來,然後依次查詢分析。pat r 使用findall方法查詢符合要求的全部內容,放置到乙個列表 divlist re.findall pat,html,re.s re.s 是.匹配包括換行之內的所有字元 2.xp...
python爬蟲 非同步爬蟲
壞處 無法無限制的開啟多執行緒或者多程序。執行緒池 程序池 適當使用 使用非同步實現高效能的資料爬取操作 人多力量大 環境安裝 pip install aiohttp 使用該模組中的clientsession 2表示同時存在兩個協程 pool pool 2 urls for i in range 1...
Python爬蟲 初識爬蟲
模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...