selenium提取資料的方法總結

2021-10-02 21:23:47 字數 1959 閱讀 3820

總結下selenium提取資料的幾種方法:

1.通過元素標籤名提取

driver.find_element_by_tag_name()

2.通過元素class屬性

driver.find_element_by_class_name()

3.通過元素id屬性

driver.find_element_by_id()

4.通過元素name屬性

driver.find_element_by_name()

5.通過鏈結文字獲取超連結

driver.find_element_by_link_text()

比如笨小孩的部落格

提取超連結可以

driver.find_element_by_link_text(『笨小孩的部落格』)

6.通過部分鏈結文字獲取超連結

driver.find_element_by_partial_link_text()

比如笨小孩的部落格

提取超連結可以

driver.find_element_by_partial_link_text(『笨小孩』)

7.如果要提取屬性資料的話,我們可以通過webelement.get_attribute()

比如:

怎麼提取style屬性裡的值?

我們可以通過提取tag_name【div】 或者id,class屬性定位藍色部分的webelement,然後附上【.get_attribute(『style』)】,見**

from selenium import webdriver

driver=webdriver.chrome(

)style=driver.find_element_by_id(

'ibm-leadspace-head'

).get_attribute(

"style"

)

8.超實用的xpath提取

登入,翻頁,搜尋這些功能的實現,無法簡單的使用class=』xx』,或id=』***』準確定位到需要的元素,這就涉及到xpath的使用。xpath 的獲取有很多方法,這裡詳細講講最簡單的方法——使用chorme得到xpath的定位。chorme瀏覽器功能很強大,能很好的實現xpath定位,建議大家使用爬蟲的時候優先考慮它。

以拉勾網**為例:

單擊滑鼠右鍵,選擇檢查。進入開發者介面,點選左上角網頁元素選擇。

滑鼠移到左邊登入鍵,我們就能看到左邊的**定位了。

按住ctrl+f,調出搜尋框。

觀察父級子級關係,a標籤在li標籤之下,class屬性為login。

在搜尋框中輸入驗證下,看能否找到。

很好,能找到。我們就可以帶入到selenium裡面,讓selenium和xpath合作啦~

#登入

login=driver.find_element_by_xpath(

'//li/a[@class="login"]'

)login.click(

)

以上就是selenium獲取資料方法的總結。

09 selenium解析和提取資料的方法

author nimo ding selenium 是真實的模擬人操作瀏覽器,需要等待網頁緩衝的時間.在爬取大量資料時就會比較慢,這是它的缺點。通常在爬蟲專案中,selenium都是用在其他方法無法解決或很難解決問題的時候才會用到。學習文件 靜態網頁 html源 與渲染完成的elements源 一樣...

資料提取 常用的手機資料提取方法

閒暇時間,隨手記錄,願與諸位朋友分享。學識有限,不當之處,懇請各位大神不吝賜教,也是對我自己的學習提高過程!言歸正文 手機取證,從字面理解,可以分為取和證兩個過程。取,把資料原原本本的從手機中提取出來。證,通過資料檢索 挖掘 分析,尋找與案件有關的線索和證據。對於我們來說,二者缺一不可。但萬事開頭難...

python資料提取方法

json 資料交換格式,看起來像python格式 字典 列表 型別的字串 使用前需要import json 會返回json資料?1.瀏覽器切換到手機版 json.loads 把json字串轉化成python型別 json.loads json字串 json.dumps 把python 型別轉化為js...