Python爬蟲 將爬取的資料存入excle

2022-10-10 21:39:16 字數 1851 閱讀 5835

本性專案從淘車網爬取資料並將爬下來的資料生成excle**

安裝 lxml和xlsxwriter庫的時候飄紅,從terminal和python interpreter安裝都不行,最後試了試cmd

好像是先從cmd用清華映象裝,再從python interpreter裝,剛開始python interpreter也裝不上

#@time : 2022/5/6 21:42 下午

#@auther :ywx

#@file : 爬蟲2.py

#@software: pycharm

import

requests

import

xlrd

import

xlwt

from lxml import

etree

import

xlsxwriter

url='

'#設定請求頭

headers =

#通過狀態碼判斷網頁請求是否成功

defget(uel):

response = requests.get(url,headers=headers)

if response.status_code==200:

print("

success!")

else

:

print("

false")

#爬蟲部分

defparse(url):

response = requests.get(url, headers=headers)

#定義選擇器

selector =etree.html(response.text)

name = selector.xpath('

//a/span/text()')

originalprice = selector.xpath('

//i[@class="onepaynor"]/text()')

print

(name,originalprice)

#for i in range(len(name)):

#print(name[i], originalprice[i])

#建立**

workbook = xlsxwriter.workbook('

taoche_spider.xlsx')

worksheet =workbook.add_worksheet()

for i in

range(len(name)):

#在第i行,第1列,寫入originalprice

worksheet.write(i,0,name[i])

for i in

range(len(originalprice)):

worksheet.write(i, 1, originalprice[i])

workbook.close()

get(url)

parse(url)

建立**的**執行的時候出現indexerror: list index out of range報錯,剛開始以為是陣列下標越界,後來發現是因為呼叫len(name)只能返回name[i],再返回 originalprice的時候 originalprice不在它的範圍裡。

Python爬蟲爬取資料的步驟

步驟 2.把獲取得到的多個網頁鏈結存入字典,充當乙個臨時資料庫,在需要用時直接通過函式呼叫即可獲得 4.面對爬蟲時代,各個 基本上都設定了相應的反爬蟲機制,當我們遇到拒絕訪問錯誤提示404時,可通過獲取user agent 來將自己的爬蟲程式偽裝成由人親自來完成的資訊的獲取,而非乙個程式進而來實現網...

python爬蟲 爬取貓眼電影資料

定義乙個函式獲取貓眼電影的資料 import requests def main url url html requests.get url text print html if name main main 利用正則匹配,獲得我們想要的資訊 dd i class board index board...

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...