應用的正規表示式函式re.findall,元字元. * ?
抓取網頁使用的模組requests
抓取情況
**
#!/usr/bin/python
# coding: utf-8
import requests
import re
link =
""headers =
r = requests.get(link, headers = headers)
pattern_info = re.
compile
, re.s)
pattern_standing = re.
compile
(r".*等級:.*title=\"(.*?),.*周排名:.*?_blank\">.*?(\s+).*?.*?積分:.*?>.*?(\d+).*?.*總排名:.*?target=\"_blank\">.*?(\s+).*?.*"
, re.s)
csdn_info = pattern_info.findall(r.text)
standing_list = pattern_standing.findall(r.text)
for item in csdn_info:
print(%
(item[0]
, item[1]
,item[2]
, item[3]
, item[4]
))for item in standing_list:
print
("排名等級:\n等級:%s\n周排名:%s\n積分:%s\n總排名:%s"
%(item[0]
, item[1]
, item[2]
, item[3]
))
ObjC利用正規表示式抓取網頁內容
在開發專案的過程,很多情況下我們需要利用網際網路上的一些資料,在這種情況下,我們可能要寫乙個爬蟲來爬我們所需要的資料。一般情況下都是利用正規表示式來匹配html,獲取我們所需要的資料。一般情況下分以下三步。1 獲取網頁的html 2 利用正規表示式,獲取我們所需要的資料 3 分析,使用獲取到的資料,...
CSDN 正規表示式應用
正規表示式,又稱正規表示式 正規表示法 正規表示式 規則表示式 常規表示法 英語 regular expression,在 中常簡寫為regex regexp或re 電腦科學的乙個概念。正規表示式使用單個字串來描述 匹配一系列匹配某個句法規則的字串。在很多文字編輯器裡,正規表示式通常被用來檢索 替換...
正規表示式抓取網頁資訊
宣告 此正規表示式只適用於.net 使用的流程為傳送http請求返回整個html網頁,然後從此html頁面抓取想要的資料。第一部分 傳送httpwebrequest 請求 url 位址 瀏覽器型別設定 request.useragent mozilla 4.0 compatible msie 7.0...