今天無意中發現了乙個練習爬蟲的**:
做的挺不錯的 強烈推薦
第一關是將網頁中所有的數字相加,因為格式十分整齊,可以用多種方法來實現,一併記錄在這裡了,注意在get的時候要加上在cookie
importrequests
from bs4 import
beautifulsoup
import
refrom requests_html import
htmlsession
from lxml import
etree
header =
r=requests.get("
level/web/crawler-basic-1
",headers=header)
html = beautifulsoup(r.text,'
lxml')
anss=0
#css選擇器
x=html.select("
div[class='col-md-1']")
for i in
x: anss+=int(i.get_text().strip())
(anss)
"""#正則
s='''(.+?)
'''x=re.findall(s,r.text,re.dotall)
for i in x:
anss+=int(i.strip())
print(anss)
""""""
#htmlsession.get().html.find()方法
session=htmlsession()
url=session.get("level/web/crawler-basic-1",headers=header)
#content=url.html.find('div.col-md-1:nth-child(1)',first=true)
for i in range(1,1201):
s='div.col-md-1:nth-child('+str(i)+')'
content=url.html.find(s,first=true)
anss+=int(content.text)
print(anss)
""""""
#xpath路徑
label=etree.html(r.text)
content=label.xpath('//div[@class="col-md-1"]/text()')
#提取div標籤中class名為"col-md-1"的內容資訊,並且存入乙個列表中
for i in content:
anss+=int(i.replace('\n', '').strip())
print(anss)
"""
python闖關 Python 爬蟲闖關(第一關)
經過多次手動填數字後,我們得到了這個頁面 有一 dabo 數字,顯然手動在這輸是不太靠譜了。不過,我們可以大致總結出本關的規律 第一關是將頁面出現的數字填寫到當前 url的尾部進行訪問,然後會得到乙個新的數字,再用它替換 url中的尾部數字,這樣不斷迴圈往復,直到頁面出現成功標識。那麼思路也有了 解...
glidedsky爬蟲之css反爬蟲
author cjp file cssfan.py time 2020 9 11 16 37 import re from operator import itemgetter import requests from lxml import etree defgao url items heade...
Python爬蟲闖關 5
第五關 第四關的密碼與第三關一樣,都是30以內的數字 usr bin env python3 coding utf 8 import requests from lxml import etree class login object def init self self.session reque...