明年要是還有類似的石光活動的話,學弟學妹們就可以直接拿來用了~
import requests
#request 和 selenium 的區別:requests要求獲取的是靜態網頁
from bs4 import beautifulsoup #網頁解析
from pathlib import path #處理本地檔案
import time #每個**獲取都要花費時間,下面有用time.sleep
for i in
range(1
,4):
url=
'' #獲取1、2、3頁的表情
response=requests.
get(url)
time.
sleep(3
soup=
beautifulsoup
(response.content,
'lxml'
) #'lxml'是乙個單獨的包,是解析器
img_list=soup.
find_all
('img'
,class_=
'ui image lazy'
) # class後面必須加"_"(下劃線)才表示class屬性
for index,img in
enumerate
(img_list)
: image=img.
get(
'data-original'
content=requests.
get(image)
.content #因為都是以而二進位制的形式存在的
file=
path
('e:/emotion'
)/ f''
# 按索引順序命名,構造新的path,獲取字尾
(suffix)
#自己在e盤裡建立乙個'emotion'資料夾
file.
write_bytes
(content) #書寫二進位制,可將內容寫到檔案中去
這裡提一下靜態網頁:response.content和response.text的區別:爪巴後的:response.content是以二進位制形式進行回饋的,response.text是以文字形式回饋的
簡簡單單,老少皆宜~
baidu文庫爪巴蟲 txt
首先你應該清楚,直接從文件頁面源 中是找不到文件內容的,為什麼說容易呢,引文包含內容的檔案通常都是比較大的!只要按檔案大小排序,往下找就能發現!沒錯就是最大的那個檔案,裡面妥妥的是漢字 接下來就要分析一下請求的格式了,檢視 header 發現 get 引數一大堆 怎麼獲取這些引數呢?最先想到的就是在...
python爬蟲 表情包爬取
問題 1.路徑問題以及獲取路徑問題 注 argv 0 只是得到的是當前指令碼的絕對位置 而os模組中的幾種獲得路徑的方法,得到的是當前的工作目錄,如 open 1.txt r 則會在當前工作目錄查詢該檔案。即大部分的檔案操作都是相對於當前工作路徑。若要改變當前工作路徑,可以用 os.chdir pa...
Python 網路爬蟲 爬取表情包
import requests import os import urllib.parse from bs4 import beautifulsoup 函式 判斷表情包是不是0個 def is zero url test requests.get url msg test.content s bea...