學會使用正規表示式
1. 用正規表示式判定郵箱是否輸入正確。
r='^(\w)+(\.\w+)*@(\w)+((\.\w))$'if re.match(r,e):
print(re.match(r,e).group(0))
else:
print('非郵箱格式!')
2. 用正規表示式識別出全部**號碼。
3. 用正規表示式進行英文分詞。re.split('',news)
4. 使用正規表示式取得新聞編號
5. 生成點選次數的request url
6. 獲取點選次數
7. 將456步驟定義成乙個函式 def getclickcount(newsurl):
import requests8. 將獲取新聞詳情的**定義成乙個函式 def getnewdetail(newsurl):import re
def getclickcount(newsurl):
newid=re.search('\_(.*).html',newsurl).group(1).split('/')[-1]
res=requests.get(''.format(newid))
return int(res.text.split(".html")[-1].lstrip("('").rstrip("');"))
def getnewdetail(newsurl):9. 取出乙個新聞列表頁的全部新聞 包裝成函式def getlistpage(pageurl):resd = requests.get(newsurl)
resd.encoding = 'utf-8'
soupd = beautifulsoup(resd.text, 'html.parser')
title = soupd.select('.show-title')[0].text
info = soupd.select('.show-info')[0].text
else:
source = 'none'
click = getclickcount(newsurl)
print(ti, title, source, click)
def getlistpage(pageurl):10. 獲取總的新聞篇數,算出新聞總頁數包裝成函式def getpagen():res = requests.get(pageurl)
res.encoding = 'utf-8'
soup = beautifulsoup(res.text, 'html.parser')
for news in soup.select('li'):
if len(news.select('.news-list-title')) > 0:
g = news.select('a')[0].attrs['href']
print(g)
getnewdetail(g)
def getpagen():11. 獲取全部新聞列表頁的全部新聞詳情。res = requests.get('')
res.encoding = 'utf-8'
soup = beautifulsoup(res.text, 'html.parser')
pagenumber=int(soup.select('.a1')[0].text.rstrip('條'))
page = pagenumber//10+1
return page
使用正規表示式,取得點選次數,函式抽離
1.用正規表示式判定郵箱是否輸入正確。importre defvalidateemail email if len email 7 if re.match a za z0 9 a za z 0 9 email none print good return 1 return 0 print exit ...
使用正規表示式,取得點選次數,函式抽離
1.用正規表示式判定郵箱是否輸入正確 r w w w w e 123456789 qq.com if re.match r,e print re.match r,e group 0 else print error 2.用正規表示式識別出全部 號碼。str 羅德廣的號碼020 123456,藝術大師...
使用正規表示式,取得點選次數,函式抽離
1.用正規表示式判定郵箱是否輸入正確。r w w w w e 157049540 qq.com if re.match r,e print suc else print false 2.用正規表示式識別出全部 號碼。a re.findall d d str print a 3.用正規表示式進行英文分...