站長之家網頁模板爬取(未分頁)

2021-10-10 04:10:30 字數 1561 閱讀 2733

import requests

from lxml import etree

import os

ifnot os.path.exists(

'./moban1'):

os.mkdir(

'./moban1'

)if __name__==

"__main__"

: headers=

url=

''#獲取當前頁面資料

reponse=requests.get(url=url,headers=headers)

# response.encoding = 'utf-8'

page_text=reponse.text

# print(page_text)

#宣告乙個etree物件 進行資料解析

tree=etree.html(page_text)

a_list_url=tree.xpath(

'//div[@id = "container"]/div/div/a/@href'

)# print(a_list_url)

# a_list_name=tree.xpath('//div[@id = "container"]/div/div/a/@alt')[0]+'.rar'

# # 通用處理中文亂碼解決方案 f12找網頁編碼格式 charset

# list_name =a_list_name.encode('iso-8859-1').decode('utf-8')

# print(list_name)

# rar_name = tree.xpath('//div[@id="main"]/div/div/a/img/@alt')

# print(a_list_url)

for a_url in a_list_url:

down_text=requests.get(url=a_url,headers=headers)

.text

#宣告乙個tree物件

tree=etree.html(down_text)

down_url=tree.xpath(

'//div[@class="downbody"]/div/a/@href')[

0]down_name=tree.xpath(

'//div[@class="text_wrap"]//a/text()')[

0]+'.rar'

down_name = down_name.encode(

'iso-8859-1'

).decode(

'utf-8'

)#二進位制檔案

data=requests.get(url=down_url,headers=headers)

.content

path =

'./moban1/'

+down_name

with

open

(path,

'wb'

)as fp:

fp.write(data)

print

(down_name,

)

爬取汽車之家

爬汽車之家新聞 爬取汽車之家新聞 import requests 向汽車之家傳送get請求,獲取到頁面 ret requests.get print ret.text 用bs4解析 from bs4 import beautifulsoup 例項化得到物件,傳入要解析的文字,解析器 html.par...

PYTHON爬取汽車之家資料

使用知識 使用說明 源 usr bin env python coding utf 8 time 2020 1 16 15 34 author wsx site file cars.py software pycharm import json from multiprocessing import...

Python 爬取網頁

先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...