import urllib.request
import urllib
url=
""html=urllib.request.urlopen(url)
content=html.read(
).decode(
'utf-8'
)#html_text=bytes.decode(html.read())
#print(html_text)
print
(content)
在控制台輸入pip install bs4
安裝beautifulsoup
from urllib.request import urlopen
from bs4 import beautifulsoup as bf
html=urlopen(
"")obj=bf(html.read(),
'html.parser'
)print
(obj.head.title)
from urllib.request import urlopen
from bs4 import beautifulsoup as bf
html = urlopen(
"")obj = bf(html.read(),
'html.parser'
)title=obj.head.title
pic_info = obj.find_all(
'img'
)#分別列印每個的資訊
for i in pic_info:
print
(i)
執行完得到所有的資訊結果,包含了所有的屬性
得到的logo位址如下所示
)成功獲取logo,命名為logo.png
採用urllib
中的request.urlopen
讀取網頁內容
用bytes.decode
可以將網頁內容轉換為位元組
採用bs4
將網頁內容結構化,方便讀取
beautifulsoup
中的find_all
方法可以提取包含在標籤裡的資訊。
1. 有哪些足不出戶,能用十天左右時間掌握的新技能? - 朱衛軍的回答 - 知乎
python3爬取百度百科
在每個頁面裡只爬 h1 標題和下面的一段簡介 準備工作 資料庫需要三個字段,id,標題,內容 資料庫一定要在建立的時候加入 character set utf8 不然會引發好多錯誤 開始爬!先找到當前頁面的所有內鏈 找規律 是 item 開頭的,所以利用正規表示式刷刷刷,之後利用beatuiful很...
python爬蟲 之 爬取百度首頁
剛開始學習爬蟲,照著教程手打了一遍,還是蠻有成就感的。使用版本 python2.7 注意 python2的預設編碼是ascii編碼而python3預設編碼是utf 8 import urllib2 url response urllib2.urlopen url print response.rea...
Python3爬蟲爬取百度貼吧
1.需求分析 為了爬取貼吧中樓主所發表的帖子,並把內容提取出來儲存到txt檔案中。2.全部 這份 寫的比較早,所以裡面提取內容基本上用的全是正規表示式,並沒有呼叫一些非常高階的包。如下 coding utf 8 import urllib.request import urllib.parse im...