簡單的實現爬蟲爬取網頁文字和
以python3為背景,這裡還是先定義乙個讀取html頁面資訊的函式:
import urllib.request
defgethtml
(url):
page = urllib.request.urlopen(url) #開啟url位址
html = page.read().decode('utf-8') #讀取html頁面資料
return html
下面定義了乙個獲取網頁文字的函式
def
getword
(html):
bs = beautifulsoup(html, "html.parser") #例項化物件
namelist = bs.findall("a") #獲取a標籤
return namelist
這裡,關於beautifulsoup的用法見:beautifulsoup基本用法總結
由於該庫是第三方庫,因此需要進行另外安裝python3實現網路爬蟲(2)–beautifulsoup使用(1)
這是乙個系列教程,有興趣的同學可以參考,傳送門 陌上行走
beautifulsoup(html, #html文字字串
"html.parser", #html解析器,也可用lxml等解析器,
#見上述「基本用法」鏈結
from_encoding = 'utf8') #html文件的編碼
在該getword()
函式中,findall()
函式是beautifulsoup的內建函式,用法可參見上述鏈結。
一定要注意,這裡是findall, 不是findall。因為本白當時就是在這裡出錯許久,然鵝找不出原因。
主要函式介紹完了,下面就是怎麼呼叫了
url = ""
html = gethtml(url)
namelist = getword(html)
for name in namelist:
print(name.get_text()) #獲取a標籤中的文字
這裡的namelist是乙個由
標籤組成的列表,get_text()
就是獲取每乙個
標籤的文字內容。
下面是完整**
import urllib.request
import re
from bs4 import beautifulsoup
defgethtml
(url):
page = urllib.request.urlopen(url)
html = page.read().decode('utf-8')
return html
defgetword
(html):
bs = beautifulsoup(html, "html.parser") #例項化物件
namelist = bs.findall("a")
return namelist
url = ""
html = gethtml(url)
namelist = getword(html)
for name in namelist:
print(name.get_text()) #獲取a標籤中的文字
爬取網頁文字資料 Python
最近在研究爬蟲相關的內容,作為記錄方便使用是查閱。本文爬取的 是長沙市統計局望城區2019年國民經濟和社會發展統計公報 step1 匯入需要用到的庫包 import requests 爬取網頁的庫 from bs4 import beautifulsoup 用於解析網頁的庫 headers 構造請求...
Python 爬取網頁
先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...
Python 簡單爬取網頁資料
爬取我的csdn網頁 import requests 時出現紅線,這時候,我們將游標對準requests,按快捷鍵 alt enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了...