python簡單爬取網頁文字操作體會

2021-08-17 01:19:52 字數 1803 閱讀 1423

簡單的實現爬蟲爬取網頁文字和

以python3為背景,這裡還是先定義乙個讀取html頁面資訊的函式:

import urllib.request

defgethtml

(url):

page = urllib.request.urlopen(url) #開啟url位址

html = page.read().decode('utf-8') #讀取html頁面資料

return html

下面定義了乙個獲取網頁文字的函式

def

getword

(html):

bs = beautifulsoup(html, "html.parser") #例項化物件

namelist = bs.findall("a") #獲取a標籤

return namelist

這裡,關於beautifulsoup的用法見:beautifulsoup基本用法總結

由於該庫是第三方庫,因此需要進行另外安裝python3實現網路爬蟲(2)–beautifulsoup使用(1)

這是乙個系列教程,有興趣的同學可以參考,傳送門 陌上行走

beautifulsoup(html,               #html文字字串

"html.parser", #html解析器,也可用lxml等解析器,

#見上述「基本用法」鏈結

from_encoding = 'utf8') #html文件的編碼

在該getword()函式中,findall()函式是beautifulsoup的內建函式,用法可參見上述鏈結。

一定要注意,這裡是findall, 不是findall。因為本白當時就是在這裡出錯許久,然鵝找不出原因。

主要函式介紹完了,下面就是怎麼呼叫了

url = ""

html = gethtml(url)

namelist = getword(html)

for name in namelist:

print(name.get_text()) #獲取a標籤中的文字

這裡的namelist是乙個由標籤組成的列表,get_text()就是獲取每乙個標籤的文字內容。

下面是完整**

import urllib.request

import re

from bs4 import beautifulsoup

defgethtml

(url):

page = urllib.request.urlopen(url)

html = page.read().decode('utf-8')

return html

defgetword

(html):

bs = beautifulsoup(html, "html.parser") #例項化物件

namelist = bs.findall("a")

return namelist

url = ""

html = gethtml(url)

namelist = getword(html)

for name in namelist:

print(name.get_text()) #獲取a標籤中的文字

爬取網頁文字資料 Python

最近在研究爬蟲相關的內容,作為記錄方便使用是查閱。本文爬取的 是長沙市統計局望城區2019年國民經濟和社會發展統計公報 step1 匯入需要用到的庫包 import requests 爬取網頁的庫 from bs4 import beautifulsoup 用於解析網頁的庫 headers 構造請求...

Python 爬取網頁

先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...

Python 簡單爬取網頁資料

爬取我的csdn網頁 import requests 時出現紅線,這時候,我們將游標對準requests,按快捷鍵 alt enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了...