乙個簡單的demo,python爬蟲,其實是以前的存貨,很久很久沒有寫爬蟲了,渣渣更渣了啊!
fake_useragent庫本地使用
來自於吾愛破解**(id:jxt441621944)上的分享,fake_useragent庫也是本渣渣比較喜歡使用的乙個庫,比較方便吧,好用倒也說不上,看著用吧,fake_useragent庫本地使用方法,這裡給大家整理和打包了一下!
useragent就是使用者**,是一串字串,相當於是瀏覽器的身份證明,在寫爬蟲的時候頻繁更換請求頭中的useragent可以避免觸發反爬機制(配合**ip食用更佳)。
fake_useragent就是可以獲得乙個隨機的使用者**的庫。
fake_useragent庫總共250條ua!
ua庫檔案:fake_ua.txt
py呼叫檔案:fakeua.py
# -*- coding: utf-8 -*-
import random
with open('fake_ua.txt', 'r') as f:
fake_ua = [fua.strip() for fua in f.readlines()]
print(random.choice(fake_ua))
交流**學習!
#qq群:850973621
]@property #把方法變成屬性的裝飾器
workbook = xlsxwriter.workbook('{}_search_results.xlsx'.format("2023年《財富》中國500強排行榜")) # 建立乙個excel檔案
worksheet = workbook.add_worksheet("2023年《財富》中國500強排行榜")
title = ['排名', '上年排名', '公司名稱(中文)', '營業收入(百萬元)', '利潤(百萬元)'] # **title
worksheet.write_row('a1', title)
for index, data in enumerate(data_list):
# content = content.rstrip()
# keyword, rank, include_num, chart_url, title, game_id, company_num, long_words_num = data
num0 = str(index + 2)
row = 'a' + num0
# data = [name, size, game_id]
worksheet.write_row(row, data)
workbook.close()
def get_mdata(self):
html=requests.get(self.murl,headers=self.random_headers,timeout=5).content.decode('utf-8')
#print(html)
req = etree.html(html)
rankings=req.xpath('//table[@class="wt-table"]/tbody/tr/td[1]/text()')
companys=req.xpath('//table[@class="wt-table"]/tbody/tr/td[2]/a/text()')
incomes=req.xpath('//table[@class="wt-table"]/tbody/tr/td[3]/text()')
profits=req.xpath('//table[@class="wt-table"]/tbody/tr/td[4]/text()')
data_list=
for ranking,company,income,profit in zip(
rankings,companys, incomes, profits
):data = [
ranking,company,income,profit
]print(data)
print('\n')
self.write_to_mxlsx(data_list)
def write_to_mxlsx(self, data_list):
workbook = xlsxwriter.workbook('{}_search_results.xlsx'.format("2023年《財富》美國500強排行榜")) # 建立乙個excel檔案
worksheet = workbook.add_worksheet("2023年《財富》美國500強排行榜")
title = ['排名', '公司名稱(中文)', '營業收入(百萬美元)', '利潤(百萬美元)'] # **title
worksheet.write_row('a1', title)
for index, data in enumerate(data_list):
# content = content.rstrip()
# keyword, rank, include_num, chart_url, title, game_id, company_num, long_words_num = data
num0 = str(index + 2)
row = 'a' + num0
# data = [name, size, game_id]
worksheet.write_row(row, data)
workbook.close()
if __name__=="__main__":
spider=get_data()
#spider.get_data()
spider.get_mdata()
Python 爬蟲爬取網頁
工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...
python爬蟲爬取策略
在爬蟲系統中,待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略 一 深度優先遍歷策略 深度優先遍歷策略是指網路爬蟲會從起始頁開始...
python爬蟲 seebug爬取
1.找相關的標籤一步一步往下查詢 2.有cookie才能查詢 3.用import re而不用from re import 是為了防止衝突 coding utf 8 from requests import import re from bs4 import beautifulsoup as bs h...