#encoding=utf-8import re
# html裡是文字裡的內容
f = open('text.txt'
,'r')
html = f.read()
f.close
# #爬取標題
# # 需要尋找的只出現一次,search()只返回第乙個匹配的元素,不用遍歷全部,效率更高
# title = re.search('(.*?)',html,re.s).group(1)
# print title
# #爬取鏈結
# links = re.findall('href="(.*?)"',html,re.s)
# print links
# for each in links:
# print each
# #提取部分文字資訊:先爬大,再爬小
# text_fied = re.findall('',html,re.s)[0]
# #猜想,當findall得到的元素是乙個元組,但是這個元組僅有乙個時,需要像search那樣給定位置。
# print text_fied
# the_text = re.findall('">(.*?)',text_fied,re.s)
# for e_text in the_text:
# print e_text
#sub實現翻頁功能
old_url = ""
total_page = 20
for i in
range(2
,total_page+1):
new_link = re.sub('pagenum=\d+'
,'pagenum=%d'%i,old_url,re.s)
print new_link
正規表示式舉例
匹配中文字元的正規表示式 u4e00 u9fa5 匹配雙位元組字元 包括漢字在內 x00 xff 應用 計算字串的長度 乙個雙位元組字元長度計2,ascii字元計1 string.prototype.len function 匹配空行的正規表示式 n s r 匹配html標記的正規表示式 匹配首尾空...
正規表示式應用舉例
1.檢測使用者名稱 var rg a za z0 9 輸入數字字母或下劃線,6到16位 檢測使用者名稱輸入是否合法 合法提示使用者名稱合法 字顏色顯示綠色 不合法 提示使用者名稱不合法 顏色是紅色 var uname document.queryselector uname var tip docu...
JS的正規表示式 舉例
校驗是否全由數字組成 function isdigit s if patrn.exec s return false return true 校驗登入名 只能輸入5 20個以字母開頭 可帶數字 的字串 function isregisterusername s a za z0 9 if patrn....