python使用多執行緒爬取表情包

2021-08-11 11:27:41 字數 1887 閱讀 5677

使用多執行緒爬取資料可以顯著提高效率

編輯環境:pycharm

目標:爬取表情包庫的所有表情包

首先在同目錄下建乙個images資料夾

**如下

#coding:utf8

import os

import threading

import requests

import urllib

from bs4 import beautifulsoup

base_page_url = ''

#頁面url列表

page_url_list =

#表情url列表

face_url_list =

#全域性鎖

():#建立4個多執行緒作為生產者,爬取

一共4w多張表情包,美滋滋

xpath解析多執行緒爬取表情包

要點 請求頭要有referer和user agent xpath解析響應的html字串,img表示得到當前目錄下所有的img標籤,data backup表示得到某個屬性值 總體 import requests from lxml import etree from bs4 import beauti...

使用多執行緒爬取資料

應用名稱 應用鏈結 import requests import time from multiprocessing import queue from threading import thread import json import urllib.parse class xiaomispide...

python爬蟲 表情包爬取

問題 1.路徑問題以及獲取路徑問題 注 argv 0 只是得到的是當前指令碼的絕對位置 而os模組中的幾種獲得路徑的方法,得到的是當前的工作目錄,如 open 1.txt r 則會在當前工作目錄查詢該檔案。即大部分的檔案操作都是相對於當前工作路徑。若要改變當前工作路徑,可以用 os.chdir pa...