--定位標籤
--提取標籤中儲存的資料
--例項化乙個etree的物件且將解析的頁面原始碼資料載入到該物件中
--通過xpath方法(返回值:列表)結合者xpath表示式進行資料解析
-- //tagname
-- //tagname[@attr = 'value']
-- //tagname[index]
-- /text() //text()
-- /@attrname
--例項化乙個bs4的物件且將解析的頁面原始碼資料載入到該物件中
--通過相關的方法和屬性進行資料解析
-- soup.tagname
-- soup.find('tagname', attrname = 'value') <==> find_all()
-- select('css選擇器') //標籤, 類, id, 層級
-- string,text,get_text()
-- tag['attrname']
python爬蟲 資料解析
解析的區域性的文字內容都會在標籤之間或者標籤對應的屬性中進行儲存 使用正規表示式,利用字串匹配篩選出所需要的內容 例 ex re是python中使用正規表示式的庫 page text是爬取到頁面的原始碼 使用上面定義的正則匹配規則進行解析,得到的url img src list re.findall...
python爬蟲 資料解析(正則)
正則解析案例 爬取糗事百科的 糗事百科url 檢視網頁源 發現儲存的位址 import requests import re import os if name main headers 判斷是否存在qiushi資料夾,如果不存在就建立乙個 ifnot os.path.exists qiushi o...
python 爬蟲 4 資料解析 xpath
html中的結構可能是棵樹,不一定是二叉樹,可能是多叉的。這時用xpath定位,解析會比較合適。語法 1.解析本地儲存 tree etree.parse filename 2.解析網上爬取 tree etree.html page text 3.標籤定位 tree.xpath html head 定...