Pyhon基礎 使用爬蟲獲取資訊

2021-09-06 13:39:10 字數 1402 閱讀 8686

2.提取國防科技大學2016到2012每一年分數線子**位址

3.提取**中乙個**的資料

import urllib.request as req

import re

webpage = req.urlopen('')      # 根據超鏈訪問鏈結的網頁

data = webpage.read() .decode('uft-8') # 讀取超鏈網頁資料,並解碼

注意提取的超鏈是相對位址,需要加上站點網域名稱,拼接成完整的url

即:子網頁** = 「http://」+ 「www.gotonudt.cn」 + 「提取的url子串」

website = ''

for year in range(2016,2011,-1):

index = data.find('國防科技大學%d年錄取分數統計' % year)#進關鍵字的尋找

href = data[index-100:index].split('"')[3] # 提取url子串

table = re.findall(r'', data, re.s)

firsttable = table[0] # 取網頁中的第乙個**

replace是乙個替換函式,前是需要替換的內容後面是替換後的內容

# 資料清洗,將表中的 ,\u3000,和空格號去掉

firsttable = firsttable.replace(' ', '')

firsttable = firsttable.replace('\u3000', '')

firsttable = firsttable.replace(' ', '')

find是乙個查詢函式,查詢你需要的內容

# 1.按tr標籤對獲取**中所有行,儲存在列表rows中:

rows=re.findall(r'',firsttable, re.s) #找到表的所有行內容

# 2.迭代rows中的所有元素,獲取每一行的td標籤內的資料,並把資料組成item列表,將每乙個item新增到scorelist列表:

for row in rows:

item=

tds=re.findall(r'',row,re.s) #每一行的所有列

for td in tds:

rw=td.find('') #找到的位置

if rw!=-1: #-1時沒有資料

lw=td[:rw].rfind('>') #從右開始找《的位置

Servlet 獲取資訊

每個註冊的servlet名字都有與之相連的特定初始化 init 引數。servlet任何時候都可以使用這個引數。取得servlet初始化引數 servlet用getinitparameter 方法來訪問它的初始化引數 public string servletconfig.getinitparame...

socket獲取資訊函式

獲取本地主機名 int gethostname char far name,int namelen 根據socket檔案描述符,獲取 本地 遠端 位址資訊結構體int getsockname socket s,struct sockaddr far name,int far namelen 獲取遠端...

python爬蟲抓取資訊 urllib

自己晚上寫的 本來抓取的是匯率 沒寫完 唉 路還長 繼續走 import requests import urllib.request import urllib.request import re import datetime def get headers 定義請求頭 換著請求頭進行爬取 he...