#本檔案用來記錄bs4的用法
# from bs4 import beautifulsoup
# 使用方法:將乙個html文件,轉化為指定物件,然後通過物件的方法或屬性去查詢指定的內容
# 轉化本地檔案:
# soup = beautifulsoup(open('本地檔案', 'lxml'))
# 轉化網路檔案:
# soup = beautifulsoup('字串型別或位元組型別', 'lxml')
# (1)根據標籤名查詢
# soup.a 只能找到第乙個符合要求的標籤
# (2)獲取屬性
# soup.a.attrs 獲取所有的屬性和值,返回乙個字典
# soup.a.attrs['href'] 獲取href屬性
# soup.a['href']也可簡寫為這種形式
# (3)獲取內容
# soup.a.string
# soup.a.text
# soup.a.get_text()
# 如果標籤中還有標籤,則string獲取不到結果,而其他兩個可以獲取文字內容
# (4)find
# soup.find('a') 找到第乙個a
# soup.find('a', title="***") 找到第乙個符合要求title="***"的a
# soup.find('a', class_="***") 由於class是關鍵字,所以要在後面加乙個下劃線來轉義
## find的方法不僅soup可以呼叫,普通的div物件也可以呼叫,會去指定的div裡面去查詢符合要求的節點
# find找到的都是第乙個符合要求的標籤
# (5)find_all
# div = soup.find('div', class_="tang")
# div.find_all('a')找出所有的含有a的
# div.find_all(['a','b'])找出同時有a和b的
# div.find_all('a', limit=2)找出前2個a
# find_all找到的是列表,因此需要把裡面的元素乙個乙個地拿出來,然後才可以用['href']之類提取屬性的方法
# (6)select
# 根據選擇器找到指定的內容
# 常見的選擇器:標籤選擇器、類選擇器、id選擇器、組合選擇器、層級選擇器、屬性選擇器
# 標籤選擇器:a
# 類選擇器:.dudu
# id選擇器:#lala
# 組合選擇器:a, .dudu, #lala, .meme
# 層級選擇器:div .dudu #lala .meme .xixi
# div > p > a > .lala(只限制你下一級,層次結構清晰)
# 屬性選擇器:input[name='lala']
# select選擇器返回的永遠是列表,需要通過下標提取指定的物件,然後獲取屬性和節點,通常是帶標籤的,要獲取內容,參照上面的.text等
# 該方法也可以通過普通物件呼叫,找到的都是這個物件下面符合要求的所有節點
bs4和xpath的用法
1.bs4的運用 流程 1.匯入相應的模組 from bs4 import beautifulsoup 2.例項化乙個 beautifulsoup 物件,並將我們要解析的資料載入到該物件中 soup beautifulsoup 要解析的資料 lxml 解析器 3.定位標籤 1 通過標籤名定位 sou...
爬蟲架構 bs4
方便解析html xml等格式的原始碼,快速查詢 修改等操作,節省數小時乃至更多的工作時間 官網文件 from bs4 import beautifulsoup print path beautifulsoup path 非真實網頁 html doc 夏日炎炎,要你幹嘛 print soup.hea...
爬蟲 bs4模組
安裝 pip3 install beautifulsoup4 解析html和xml,修改html和xmlimport requests from bs4 import beautifulsoup 文件容錯能力,不是乙個標準的html也能解析 soup beautifulsoup html doc,l...