站長之家網頁模板爬取（未分頁）

import requests

from lxml import etree

import os

ifnot os.path.exists(

'./moban1'):

os.mkdir(

'./moban1'

)if __name__==

"__main__"

: headers=

url=

''#獲取當前頁面資料

reponse=requests.get(url=url,headers=headers)

# response.encoding = 'utf-8'

page_text=reponse.text

# print(page_text)

#宣告乙個etree物件進行資料解析

tree=etree.html(page_text)

a_list_url=tree.xpath(

'//div[@id = "container"]/div/div/a/@href'

)# print(a_list_url)

# a_list_name=tree.xpath('//div[@id = "container"]/div/div/a/@alt')[0]+'.rar'

# # 通用處理中文亂碼解決方案 f12找網頁編碼格式 charset

# list_name =a_list_name.encode('iso-8859-1').decode('utf-8')

# print(list_name)

# rar_name = tree.xpath('//div[@id="main"]/div/div/a/img/@alt')

# print(a_list_url)

for a_url in a_list_url:

down_text=requests.get(url=a_url,headers=headers)

.text

#宣告乙個tree物件

tree=etree.html(down_text)

down_url=tree.xpath(

'//div[@class="downbody"]/div/a/@href')[

0]down_name=tree.xpath(

'//div[@class="text_wrap"]//a/text()')[

0]+'.rar'

down_name = down_name.encode(

'iso-8859-1'

).decode(

'utf-8'

)#二進位制檔案

data=requests.get(url=down_url,headers=headers)

.content

path =

'./moban1/'

+down_name

with

open

(path,

'wb'

)as fp:

fp.write(data)

(down_name,

)

爬取汽車之家

爬汽車之家新聞爬取汽車之家新聞 import requests 向汽車之家傳送get請求，獲取到頁面 ret requests.get print ret.text 用bs4解析 from bs4 import beautifulsoup 例項化得到物件，傳入要解析的文字，解析器 html.par...

PYTHON爬取汽車之家資料

使用知識使用說明源 usr bin env python coding utf 8 time 2020 1 16 15 34 author wsx site file cars.py software pycharm import json from multiprocessing import...

Python 爬取網頁

先謝郭嘉以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...

站長之家網頁模板爬取（未分頁）

爬取汽車之家

PYTHON爬取汽車之家資料

Python 爬取網頁

相關推薦