Python爪巴表情包

2021-10-22 07:16:46 字數 1313 閱讀 9657

明年要是還有類似的石光活動的話,學弟學妹們就可以直接拿來用了~

import requests  

#request 和 selenium 的區別:requests要求獲取的是靜態網頁

from bs4 import beautifulsoup #網頁解析

from pathlib import path #處理本地檔案

import time #每個**獲取都要花費時間,下面有用time.sleep

for i in

range(1

,4):

url=

'' #獲取1、2、3頁的表情

response=requests.

get(url)

time.

sleep(3

soup=

beautifulsoup

(response.content,

'lxml'

) #'lxml'是乙個單獨的包,是解析器

img_list=soup.

find_all

('img'

,class_=

'ui image lazy'

) # class後面必須加"_"(下劃線)才表示class屬性

for index,img in

enumerate

(img_list)

: image=img.

get(

'data-original'

content=requests.

get(image)

.content #因為都是以而二進位制的形式存在的

file=

path

('e:/emotion'

)/ f''

# 按索引順序命名,構造新的path,獲取字尾

(suffix)

#自己在e盤裡建立乙個'emotion'資料夾

file.

write_bytes

(content) #書寫二進位制,可將內容寫到檔案中去

這裡提一下靜態網頁:
response.content和response.text的區別:

response.content是以二進位制形式進行回饋的,response.text是以文字形式回饋的

爪巴後的:

簡簡單單,老少皆宜~

baidu文庫爪巴蟲 txt

首先你應該清楚,直接從文件頁面源 中是找不到文件內容的,為什麼說容易呢,引文包含內容的檔案通常都是比較大的!只要按檔案大小排序,往下找就能發現!沒錯就是最大的那個檔案,裡面妥妥的是漢字 接下來就要分析一下請求的格式了,檢視 header 發現 get 引數一大堆 怎麼獲取這些引數呢?最先想到的就是在...

python爬蟲 表情包爬取

問題 1.路徑問題以及獲取路徑問題 注 argv 0 只是得到的是當前指令碼的絕對位置 而os模組中的幾種獲得路徑的方法,得到的是當前的工作目錄,如 open 1.txt r 則會在當前工作目錄查詢該檔案。即大部分的檔案操作都是相對於當前工作路徑。若要改變當前工作路徑,可以用 os.chdir pa...

Python 網路爬蟲 爬取表情包

import requests import os import urllib.parse from bs4 import beautifulsoup 函式 判斷表情包是不是0個 def is zero url test requests.get url msg test.content s bea...