好久不用bs4,手都生了 複習一點點bs4的用法

2021-07-22 02:30:06 字數 926 閱讀 5203

主要是複習《python網路資料採集》的基礎章節,參考了imooc站老師的一些**,用到漂亮湯了我竟然不會寫了。最後的**如下:

from urllib.request import urlopen    #需要urlopen開啟鏈結,beautifulsoup解析html

from bs4 import beautifulsoup

class spider():

def get_html(self):

html = urlopen("") #萌娘百科簡中首頁

return html

if __name__ == "__main__":

spider = spider()

bs = beautifulsoup(spider.get_html(), 'html.parser', from_encoding='utf-8')

#找出首頁所有標籤內容,並最終只取其文字內容

findhtmls = bs.findall('p')

# print(findhtmls.get_text()) 錯誤,list物件沒有get_text()

for html in findhtmls:

print(html.get_text())

#儲存了整個html頁面

f = open('go.html','w')

f.write(str(spider.get_html().read(),'utf-8'))

f.close()

print('done')

其間遇到了乙個問題就是不知道怎麼列印出findall得到的內容,後來翻書發現findall的返回是乙個list……囧……

以後一定要記得了:

find返回的是字串;

findall返回的是字串們的列表。

爬蟲架構 bs4

方便解析html xml等格式的原始碼,快速查詢 修改等操作,節省數小時乃至更多的工作時間 官網文件 from bs4 import beautifulsoup print path beautifulsoup path 非真實網頁 html doc 夏日炎炎,要你幹嘛 print soup.hea...

爬蟲 bs4模組

安裝 pip3 install beautifulsoup4 解析html和xml,修改html和xmlimport requests from bs4 import beautifulsoup 文件容錯能力,不是乙個標準的html也能解析 soup beautifulsoup html doc,l...

bs4的基本用法

本檔案用來記錄bs4的用法 from bs4 import beautifulsoup 使用方法 將乙個html文件,轉化為指定物件,然後通過物件的方法或屬性去查詢指定的內容 轉化本地檔案 soup beautifulsoup open 本地檔案 lxml 轉化網路檔案 soup beautiful...