總結下selenium提取資料的幾種方法:
1.通過元素標籤名提取
driver.find_element_by_tag_name()
2.通過元素class屬性
driver.find_element_by_class_name()
3.通過元素id屬性
driver.find_element_by_id()
4.通過元素name屬性
driver.find_element_by_name()
5.通過鏈結文字獲取超連結
driver.find_element_by_link_text()
比如笨小孩的部落格
提取超連結可以
driver.find_element_by_link_text(『笨小孩的部落格』)
6.通過部分鏈結文字獲取超連結
driver.find_element_by_partial_link_text()
比如笨小孩的部落格
提取超連結可以
driver.find_element_by_partial_link_text(『笨小孩』)
7.如果要提取屬性資料的話,我們可以通過webelement.get_attribute()
比如:
怎麼提取style屬性裡的值?
我們可以通過提取tag_name【div】 或者id,class屬性定位藍色部分的webelement,然後附上【.get_attribute(『style』)】,見**
from selenium import webdriver
driver=webdriver.chrome(
)style=driver.find_element_by_id(
'ibm-leadspace-head'
).get_attribute(
"style"
)
8.超實用的xpath提取
登入,翻頁,搜尋這些功能的實現,無法簡單的使用class=』xx』,或id=』***』準確定位到需要的元素,這就涉及到xpath的使用。xpath 的獲取有很多方法,這裡詳細講講最簡單的方法——使用chorme得到xpath的定位。chorme瀏覽器功能很強大,能很好的實現xpath定位,建議大家使用爬蟲的時候優先考慮它。
以拉勾網**為例:
單擊滑鼠右鍵,選擇檢查。進入開發者介面,點選左上角網頁元素選擇。
滑鼠移到左邊登入鍵,我們就能看到左邊的**定位了。
按住ctrl+f,調出搜尋框。
觀察父級子級關係,a標籤在li標籤之下,class屬性為login。
在搜尋框中輸入驗證下,看能否找到。
很好,能找到。我們就可以帶入到selenium裡面,讓selenium和xpath合作啦~
#登入
login=driver.find_element_by_xpath(
'//li/a[@class="login"]'
)login.click(
)
以上就是selenium獲取資料方法的總結。 09 selenium解析和提取資料的方法
author nimo ding selenium 是真實的模擬人操作瀏覽器,需要等待網頁緩衝的時間.在爬取大量資料時就會比較慢,這是它的缺點。通常在爬蟲專案中,selenium都是用在其他方法無法解決或很難解決問題的時候才會用到。學習文件 靜態網頁 html源 與渲染完成的elements源 一樣...
資料提取 常用的手機資料提取方法
閒暇時間,隨手記錄,願與諸位朋友分享。學識有限,不當之處,懇請各位大神不吝賜教,也是對我自己的學習提高過程!言歸正文 手機取證,從字面理解,可以分為取和證兩個過程。取,把資料原原本本的從手機中提取出來。證,通過資料檢索 挖掘 分析,尋找與案件有關的線索和證據。對於我們來說,二者缺一不可。但萬事開頭難...
python資料提取方法
json 資料交換格式,看起來像python格式 字典 列表 型別的字串 使用前需要import json 會返回json資料?1.瀏覽器切換到手機版 json.loads 把json字串轉化成python型別 json.loads json字串 json.dumps 把python 型別轉化為js...