import requests, os
from lxml import etree
if __name__ == '__main__':
if not os.path.exists('模板'):
os.mkdir('模板')
headers =
url = ''
page_text = requests.get(url, headers).text
tree = etree.html(page_text)
moban_city_list = tree.xpath('//div[@id="main"]/div[@id="container"]/div')
for moban_city in moban_city_list:
# 每個模板的url位址
moban_city_href = '' + str(moban_city.xpath('./a/@href')[0]).split('/')[-1]
# 獲取模板詳情介面
moban_response = requests.get(moban_city_href, headers)
moban_response.encoding = 'utf-8'
moban_download_page_text = moban_response.text
# 例項化模板詳情介面
moban_tree = etree.html(moban_download_page_text)
moban_download_url = moban_tree.xpath(
'//div[@class="clearfix mt20 downlist"]/ul[@class="clearfix"]/li[1]/a/@href')[0]
moban_name = moban_tree.xpath('//div[@class="ppt_tit clearfix"]/h1/text()')[0]
# 判斷檔案是否存在
if os.path.exists('./模板/'+moban_name + '.rar'):
print(moban_name + '\t已存在')
continue
else:
with open('./模板/' + moban_name + '.rar', 'wb') as fp:
fp.write(requests.get(moban_download_url).content)
os.system('pause')
想爬其他頁的功能沒寫 自行修改變數url為第二頁的url就行了 python爬蟲 1w 套個人簡歷模板爬取
1.爬取的 為站長之家 2.爬取的時候可以適量少爬一點,夠用就行,小心律師函警告 3.為博主原創,僅供學習參考,請勿用於商業用途!4.在迭代,我寫下這篇博文的時候是適用的,其他時間段未必 5.附上原 的說明 實在怕封ip的可以在網上買個 ip,畢竟爬的太多了 import requests 傳送請求...
Python 爬蟲爬取網頁
工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...
python爬蟲爬取策略
在爬蟲系統中,待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略 一 深度優先遍歷策略 深度優先遍歷策略是指網路爬蟲會從起始頁開始...