在獲取了我們想要的html頁面之後,接下來的問題就是如何將我們需要的資料給提取下來,一般來說有三種方式,分別是xpath語法,正規表示式和bs4庫,只要掌握了這三種方法,可以說html頁面上沒有什麼資料是我們獲取不到的。
我們來對這三種方式做乙個簡單的總結:
解析方式
解析速度
難度xpath快中等
bs4慢
容易re(正規表示式)
最快困難
實際上,這三種方式都可以從html頁面上獲取我們想要的資料,但是由於其基於的原理不太一樣,所以他們在解析html頁面的時候速度頁不太一樣,一般來說,解析越快的,用起來肯定越難,解析越慢的,用起來肯定更簡單一些,這個呢也是很多其它語言等的規律,得到了一方面的效能,就要損失一些東西,所謂「魚與熊掌不可兼得」。
個人偏向於使用xpath語法,其次是正規表示式,bs4用的不是很多。因為對於大多數**來說,使用xpath語法已然足夠,除非當xpath不好提取的時候,選擇使用正規表示式進行提取,當然,在乙個資料提取中,我們可以使用混合方式進行資料提取,比如,既使用xpath語法也使用正規表示式,也可以三者皆用,這個取決於個人的偏好及html頁面提取的難易程度。
selenium提取資料的方法總結
總結下selenium提取資料的幾種方法 1.通過元素標籤名提取 driver.find element by tag name 2.通過元素class屬性 driver.find element by class name 3.通過元素id屬性 driver.find element by id ...
資料提取方法 多程序多執行緒爬蟲
爬取 頁面的url是 思路分析 確定url位址 url位址的規律非常明顯,一共只有13頁url位址 確定資料的位置 資料都在id content left 的div下的div中,在這個區域,url位址對應的響應和elements相同 上述 改寫成多執行緒方式實現 2.1 回顧多執行緒的方法使用 在p...
python爬蟲 六 正則提取資料
首先抓 取豆瓣t op 250的網頁 首先抓取豆瓣top250的網頁 首先抓取豆瓣 top2 50的網 頁 首先看主函式 import urllib.request,parser from bs4 import beautifulsoup import re findlink re.compile ...