利用正規表示式 組合抓取 CSDN部落格資訊

2021-10-03 08:44:19 字數 947 閱讀 1460

應用的正規表示式函式re.findall,元字元. * ?

抓取網頁使用的模組requests

抓取情況

**

#!/usr/bin/python

# coding: utf-8

import requests

import re

link =

""headers =

r = requests.get(link, headers = headers)

pattern_info = re.

compile

, re.s)

pattern_standing = re.

compile

(r".*等級:.*title=\"(.*?),.*周排名:.*?_blank\">.*?(\s+).*?.*?積分:.*?>.*?(\d+).*?.*總排名:.*?target=\"_blank\">.*?(\s+).*?.*"

, re.s)

csdn_info = pattern_info.findall(r.text)

standing_list = pattern_standing.findall(r.text)

for item in csdn_info:

print(%

(item[0]

, item[1]

,item[2]

, item[3]

, item[4]

))for item in standing_list:

print

("排名等級:\n等級:%s\n周排名:%s\n積分:%s\n總排名:%s"

%(item[0]

, item[1]

, item[2]

, item[3]

))

ObjC利用正規表示式抓取網頁內容

在開發專案的過程,很多情況下我們需要利用網際網路上的一些資料,在這種情況下,我們可能要寫乙個爬蟲來爬我們所需要的資料。一般情況下都是利用正規表示式來匹配html,獲取我們所需要的資料。一般情況下分以下三步。1 獲取網頁的html 2 利用正規表示式,獲取我們所需要的資料 3 分析,使用獲取到的資料,...

CSDN 正規表示式應用

正規表示式,又稱正規表示式 正規表示法 正規表示式 規則表示式 常規表示法 英語 regular expression,在 中常簡寫為regex regexp或re 電腦科學的乙個概念。正規表示式使用單個字串來描述 匹配一系列匹配某個句法規則的字串。在很多文字編輯器裡,正規表示式通常被用來檢索 替換...

正規表示式抓取網頁資訊

宣告 此正規表示式只適用於.net 使用的流程為傳送http請求返回整個html網頁,然後從此html頁面抓取想要的資料。第一部分 傳送httpwebrequest 請求 url 位址 瀏覽器型別設定 request.useragent mozilla 4.0 compatible msie 7.0...