朋友有個爬資料填表的需求,想讓我實現一下,正好python在爬蟲上應用廣泛,我也可以藉此練練手。
2023年的第一天,開工。
小目標:每日定時爬取某網頁中乙個**中指定資料。
早上,先了解了各種爬蟲技術(其實就是第三方庫)的差異、優缺點,發現功能上基本類似或者有交集。
在查閱資料過程中,發現requests庫的作者又有個新庫——requests-html。so,決定了,用requests-html。
安裝requests-html,pip安裝即可。(過程中因為本地之前裝了幾個python環境,pip命令無法正常使用。想到以後專案、包、環境都要管理,所以最好開始使用anaconda,這就是另乙個blog了)
上**,參考
from requests_html import htmlsession
session = htmlsession(
)r = session.get(
'')print
(r.html.html)
元素的id = su,使用find函式中,css選擇器的引數填入』#su』,取出attribute為』value』,**如下
from requests_html import htmlsession
session = htmlsession(
)r = session.get(
'')searchword = r.html.find(
'#su'
, first=
true
)print
(searchword.attrs[
'value'
])
但是這種方式的缺點也很明顯,要爬取資料的css選擇器要逐個去尋找,不能模糊匹配、模糊查詢、向上父級標籤遍歷。應該有更好的解析html方法,以後繼續研究(xpath等)。另外,朋友的需求中,有網頁登入賬戶、爬取滾動重新整理資訊等技術未完全解決。
貼幾個鏈結
doc:
模擬登入
解析html模糊查詢、匹配(在後半部分)
初步嘗試python爬蟲
一直想學習爬蟲 直到最近兩天 才開始了學習 以下嘗試了requests和beautifulsoup的基本用法 抓取了豆瓣新書速遞的 並以書名對進行命名 請各位看官多多指教 如果有人看的話 import requests from bs4 import beautifulsoup as bs url ...
python爬蟲入門 初步採集
獲取維基百科 的任何頁面並提取頁面鏈結 import urllib2 import bs4 html urllib2.urlopen bsobj bs4.beautifulsoup html.read lxml for link in bsobj.find a if href in link.att...
python爬蟲入門初步認識
python簡單的爬蟲技術,這裡我用的是python3.x版面進行研究,主要對兩個python庫進行操作。在此之前你需要安裝python3.x環境 1 urllib python3.x官方基礎模組 2 beautifulsoup4 python3.x第三方模組 使用前需要安裝beautifulsou...