這裡使用requests庫爬取網頁要比urllib庫方便
用finditer查詢
import requests
import re
url='' # 帶爬取的網頁
html=requests.get(url).text # text為轉化為str資料
pat='(\w+@\w+.com)|(\d)' # 正則模式
res=re.finditer(pat,html) # finditer返回的是乙個迭代器
for i in res: # i 是乙個match物件
print(i.group()) # group()為輸出所有組
res=re.findall(pat,html) # 返回的結果在乙個列表中
python 爬取天氣並傳送郵箱
以中國天氣網為例 www.weather.com.cn 主要的實現步驟有 一 對中國天氣網進行爬取 二 通過郵箱傳送提醒 完成 import requests from bs4 import beautifulsoup import smtplib from email.mime.text impo...
爬取電影資源之網頁爬取篇(python)
6v電影網的主頁分為三列,如下圖所示。該網每天會推薦一些電影 如上圖中的 今日推薦 電影質量還算可以,大部分電影評分還行。所以這部分及是我們現在要提取的部分。然後我們檢視其原始碼,找到該部分的 還是很好找的,網頁結構比較簡單 見下圖 為了驗證找到的 區域是否為我們需要的,可以把圖中框出的 複製到乙個...
python之websocket資料爬取
首先我爬取的是 貨幣網的 爬取商家的購買和 的資料 下面是我利用websocket庫進行爬取的 不廢話,直接上碼.import json,time from websocket import create connection class otc number 是區分購買和 number 0 這個 ...