python如何爬取網頁中的文字

2022-09-29 18:06:10 字數 1083 閱讀 4706

用python進行爬取網頁文字的**:

#!/usr/bin/python

# -*- coding: utf-8 -*-

import requests

import re

# **乙個網頁

url = ''

# 模擬瀏覽器傳送http請求

response = requests.get(url)

# 編碼方式

response.encoding=程式設計客棧'utf-8'

# 目標**主頁的網頁原始碼

html = response.text

print(html)

1、編寫爬蟲思路:

確定**目標,找到網頁,找到網頁中需要的內容。對資料進行處理。儲存資料。

2、知識點說明:

1)確定網路中需要的資訊,開啟網頁後使用f12開啟開發者模式。

在network中可以看到很多資訊,我們在頁面上看到的文字資訊都儲存在乙個html檔案中。點選檔案後可以看到response,文字資訊都包含在response中。

對於需要輸入的資訊,可以使用ctrl+f,進行搜尋。檢視資訊前後包含哪些特定字段。

對於超連結的提取,可以使用最左邊的箭頭點選超連結,這時elements會開啟有該條超連結的資訊,從中判斷需要提取的資訊。從****來程式設計客棧看,在目錄頁提取出**的鏈結和章節名。

2)注意編碼格式

輸入字符集一定要設定成utf-8。頁面大多為gbk程式設計客棧字符集。不設定會亂碼。

內容擴充套件:

接下來我們了解一下爬取網頁資訊的步驟。

想要獲得我們所需的資料分三步

第一步:使用beautifulsoup解析網頁

soup = beautifulsoup(html,'lxml')

第二步:描述想要爬去資訊的東西在**。

資訊 = soup.select('???')

要知道它叫什麼名字,如何去定位。

第三步:從標籤中獲得你想要的資訊

something

從標籤中獲取我們需要的資訊,www.cppcns.com去掉一些沒有用的結構,並且把我們獲取的資訊按照一定格式裝在資料容器中,方便我們去查詢。

Python 爬取網頁

先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...

Python 爬取網頁資訊

對於本次學習爬蟲中的一些總結 1.要熟練掌握基礎知識,包括一些基礎的語法 2.正規表示式的正確使用,建議學習北理工的python爬蟲課程 3.先寫大框架再新增小的功能解析 4.對程式異常處理要熟練,盡量使用try.excep結構 5.對於列表字串資料的基本使用到位,比如增刪改查等 6.思路必須清晰 ...

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...