import requests
from lxml import etree
import os
ifnot os.path.exists(
'./moban1'):
os.mkdir(
'./moban1'
)if __name__==
"__main__"
: headers=
url=
''#獲取當前頁面資料
reponse=requests.get(url=url,headers=headers)
# response.encoding = 'utf-8'
page_text=reponse.text
# print(page_text)
#宣告乙個etree物件 進行資料解析
tree=etree.html(page_text)
a_list_url=tree.xpath(
'//div[@id = "container"]/div/div/a/@href'
)# print(a_list_url)
# a_list_name=tree.xpath('//div[@id = "container"]/div/div/a/@alt')[0]+'.rar'
# # 通用處理中文亂碼解決方案 f12找網頁編碼格式 charset
# list_name =a_list_name.encode('iso-8859-1').decode('utf-8')
# print(list_name)
# rar_name = tree.xpath('//div[@id="main"]/div/div/a/img/@alt')
# print(a_list_url)
for a_url in a_list_url:
down_text=requests.get(url=a_url,headers=headers)
.text
#宣告乙個tree物件
tree=etree.html(down_text)
down_url=tree.xpath(
'//div[@class="downbody"]/div/a/@href')[
0]down_name=tree.xpath(
'//div[@class="text_wrap"]//a/text()')[
0]+'.rar'
down_name = down_name.encode(
'iso-8859-1'
).decode(
'utf-8'
)#二進位制檔案
data=requests.get(url=down_url,headers=headers)
.content
path =
'./moban1/'
+down_name
with
open
(path,
'wb'
)as fp:
fp.write(data)
(down_name,
)
爬取汽車之家
爬汽車之家新聞 爬取汽車之家新聞 import requests 向汽車之家傳送get請求,獲取到頁面 ret requests.get print ret.text 用bs4解析 from bs4 import beautifulsoup 例項化得到物件,傳入要解析的文字,解析器 html.par...
PYTHON爬取汽車之家資料
使用知識 使用說明 源 usr bin env python coding utf 8 time 2020 1 16 15 34 author wsx site file cars.py software pycharm import json from multiprocessing import...
Python 爬取網頁
先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...