本性專案從淘車網爬取資料並將爬下來的資料生成excle**
安裝 lxml和xlsxwriter庫的時候飄紅,從terminal和python interpreter安裝都不行,最後試了試cmd
好像是先從cmd用清華映象裝,再從python interpreter裝,剛開始python interpreter也裝不上
#@time : 2022/5/6 21:42 下午
#@auther :ywx
#@file : 爬蟲2.py
#@software: pycharm
import
requests
import
xlrd
import
xlwt
from lxml import
etree
import
xlsxwriter
url='
'#設定請求頭
headers =
#通過狀態碼判斷網頁請求是否成功
defget(uel):
response = requests.get(url,headers=headers)
if response.status_code==200:
print("
success!")
else
:
print("
false")
#爬蟲部分
defparse(url):
response = requests.get(url, headers=headers)
#定義選擇器
selector =etree.html(response.text)
name = selector.xpath('
//a/span/text()')
originalprice = selector.xpath('
//i[@class="onepaynor"]/text()')
(name,originalprice)
#for i in range(len(name)):
#print(name[i], originalprice[i])
#建立**
workbook = xlsxwriter.workbook('
taoche_spider.xlsx')
worksheet =workbook.add_worksheet()
for i in
range(len(name)):
#在第i行,第1列,寫入originalprice
worksheet.write(i,0,name[i])
for i in
range(len(originalprice)):
worksheet.write(i, 1, originalprice[i])
workbook.close()
get(url)
parse(url)
建立**的**執行的時候出現indexerror: list index out of range報錯,剛開始以為是陣列下標越界,後來發現是因為呼叫len(name)只能返回name[i],再返回 originalprice的時候 originalprice不在它的範圍裡。
Python爬蟲爬取資料的步驟
步驟 2.把獲取得到的多個網頁鏈結存入字典,充當乙個臨時資料庫,在需要用時直接通過函式呼叫即可獲得 4.面對爬蟲時代,各個 基本上都設定了相應的反爬蟲機制,當我們遇到拒絕訪問錯誤提示404時,可通過獲取user agent 來將自己的爬蟲程式偽裝成由人親自來完成的資訊的獲取,而非乙個程式進而來實現網...
python爬蟲 爬取貓眼電影資料
定義乙個函式獲取貓眼電影的資料 import requests def main url url html requests.get url text print html if name main main 利用正則匹配,獲得我們想要的資訊 dd i class board index board...
Python 爬蟲爬取網頁
工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...