python簡單爬取網頁文字操作體會

簡單的實現爬蟲爬取網頁文字和

以python3為背景，這裡還是先定義乙個讀取html頁面資訊的函式：

import urllib.request
defgethtml
(url):
page = urllib.request.urlopen(url)  #開啟url位址
html = page.read().decode('utf-8')  #讀取html頁面資料
return html

下面定義了乙個獲取網頁文字的函式

def
getword
(html):
bs = beautifulsoup(html, "html.parser") #例項化物件
namelist = bs.findall("a")    #獲取a標籤
return namelist

這裡，關於beautifulsoup的用法見：beautifulsoup基本用法總結

由於該庫是第三方庫，因此需要進行另外安裝python3實現網路爬蟲(2)–beautifulsoup使用(1)

這是乙個系列教程，有興趣的同學可以參考，傳送門陌上行走

beautifulsoup(html, #html文字字串 "html.parser", #html解析器，也可用lxml等解析器， #見上述「基本用法」鏈結

from_encoding = 'utf8') #html文件的編碼

在該getword()函式中，findall()函式是beautifulsoup的內建函式，用法可參見上述鏈結。

一定要注意，這裡是findall，不是findall。因為本白當時就是在這裡出錯許久，然鵝找不出原因。

主要函式介紹完了，下面就是怎麼呼叫了

url = ""
html = gethtml(url)
namelist = getword(html)
for name in namelist:
print(name.get_text())      #獲取a標籤中的文字

這裡的namelist是乙個由標籤組成的列表，get_text()就是獲取每乙個標籤的文字內容。

下面是完整**

import urllib.request
import re
from bs4 import beautifulsoup
defgethtml
(url):
page = urllib.request.urlopen(url)
html = page.read().decode('utf-8')
return html
defgetword
(html):
bs = beautifulsoup(html, "html.parser") #例項化物件
namelist = bs.findall("a")
return namelist
url = ""
html = gethtml(url)
namelist = getword(html)
for name in namelist:
print(name.get_text())      #獲取a標籤中的文字

爬取網頁文字資料 Python

最近在研究爬蟲相關的內容，作為記錄方便使用是查閱。本文爬取的是長沙市統計局望城區2019年國民經濟和社會發展統計公報 step1 匯入需要用到的庫包 import requests 爬取網頁的庫 from bs4 import beautifulsoup 用於解析網頁的庫 headers 構造請求...

Python 爬取網頁

先謝郭嘉以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...

Python 簡單爬取網頁資料

爬取我的csdn網頁 import requests 時出現紅線，這時候，我們將游標對準requests，按快捷鍵 alt enter，pycharm會給出解決之道，這時候，選擇install package requests，pycharm就會自動為我們安裝了，我們只需要稍等片刻，這個庫就安裝好了...

python簡單爬取網頁文字操作體會

爬取網頁文字資料 Python

Python 爬取網頁

Python 簡單爬取網頁資料

相關推薦