注意的是:
// 是全域性查詢
.// 是當前節點標籤內全域性查詢
有多少頁單詞就能爬多少頁,就是用這幾行**跳出死迴圈的,也就是說說捕獲不到資料就說明頁碼到頭了。
tr_list = tree.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')
if not tr_list:
break
import requests
from lxml import etree
def getdata(list):
if len(list) > 0 :
return list[0]
else:
return ''
# url = ''
# url2 ='?page=2'
headers =
page = 1
while true:
url = '?page={}'.format(page)
page += 1
response = requests.request('get',url=url,headers=headers)
with open('word.html','w',encoding=response.encoding)as fp:
fp.write(response.text)
tree = etree.html(response.text)
# //是全域性查詢
tr_list = tree.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')
if not tr_list:
break
for tr in tr_list:
word_list = tr.xpath('.//strong/text()')
word = getdata(word_list)
# .//是當前標籤內全域性查詢
初識爬蟲 xpath 簡單應用(扇貝單詞)
今天跟著老師爬取扇貝單詞的網頁版,是把網頁內的單詞及其翻譯爬取到本地,並儲存成 txt 檔案,網頁是這樣的 那麼下面進入正題 開始同以往一樣,匯入包,獲取 url 發起請求,獲得響應 url response requests.get url url text print response 這裡我們...
爬蟲 bs4 爬取扇貝 python 單詞書
本例不涉及cookie,即抓取的資源無需登入認證。爬蟲主要做兩件事,乙個是抓取請求鏈結,另乙個是分析響應的資料。鑑於扇貝單詞書的詞串頁中的頁碼是通過js動態生成,直接抓取頁面內容是不能獲取,因此程式模擬了它的分頁請求路徑 向目標url發請求,拉取響應體 分析頁面 爬取指定內容 抓取鏈結 分析資料 資...
APP案例分析 扇貝單詞
閃退,使在程式執行時突然中斷。採訪的使用者是社會工作專業的大四學生,正在準備考研,通過扇貝來記憶單詞。需要能快速,並大量的記住單詞。感受一般,單詞數還是不夠快,單詞的生詞量增加還是慢。總的來說,用起來的感覺還是不錯的。單詞的重複出現,有助於記憶單詞,記得還是比較牢固的。背單詞功能 查詢功能 介面功能...