python執行緒抓取頁面簡單內容

2021-09-12 21:57:31 字數 1487 閱讀 7518

用到的基本就是之前提到的執行緒小框架及邏輯

# -*- encoding: utf-8 -*-

import requests

from lxml import etree

import threading

import os

class cnbeta(object):

thread =

#獲取**首頁

def get_url(self,url):

# 如果沒有檔案就建立檔案

if not os.path.exists('cnbeta.html'):

res = requests.get(url)

res1 = res.content.decode("utf-8")

with open('./cnbeta.html','w',encoding='utf-8') as f:

f.write(res1)

return res1

else:

with open('./cnbeta.html',encoding='utf-8') as f:

content = f.read()

return content

# 抓取內頁**

def get_data(self,html):

# 完善html標籤

tree = etree.html(html)

url = tree.xpath("//div[@class='headline-thumb']/a/@href")

for i in url:

# 抓取內頁內容放入檔案

def get_xiang(self,res):

# 動態檔名

name = str(res).split('/')[-1].replace('.htm','')

# 請求列表中的位址

r = requests.get(res)

r1 = r.content.decode('utf-8')

path = './upload/'

with open( path+name+'.html','w',encoding='utf-8' ) as f:

print("*****")

f.write(r1)

if __name__ == "__main__":

cnbeta = cnbeta()

html = cnbeta.get_url("")

# 將請求位址放入列表中

cnbeta.get_data(html)

print(cnbeta.thread)

for i in cnbeta.thread:

a = threading.thread(target=cnbeta.get_xiang,args=(i,))

a.setdaemon(true)

a.start()

a.join()

爬蟲有危險,抓取需謹慎

python抓取簡單頁面資訊

我們最常規的做法就是通過滑鼠右鍵,選擇另存為。但有些滑鼠右鍵的時候並沒有另存為選項,還有辦法就通過就是通過截圖工具擷取下來,但這樣就降低的清晰度。好吧 其實你很厲害的,右鍵檢視頁面源 我們可以通過python 來實現這樣乙個簡單的爬蟲功能,把我們想要的 爬取到本地。下面就看看如何使用 python ...

利用python抓取頁面資料

1 首先是安裝python 注意python3.x和python2.x是不相容的,我們最好用python3.x 安裝方法 安裝python 2 安裝成功後,再進行我們需要的外掛程式安裝。這裡我們需要用到requests和pymssql兩個外掛程式re是自帶的 注 這裡我們使用的是sqlserver所...

Python 簡單網路抓取

我們先簡單的說一下如何抓取乙個網頁的源 其實我們只需要呼叫python中的requests庫中的get方法就可以了。然後解析的話我們可以通過beautifulsoup庫來進行解析。requests比較適合做中小型的網路爬蟲開發,如果是要進行大型的網路爬蟲開發那一般使用的就是scrapy框架了。req...