學習了一下python網路爬蟲以下是我做的例項
在其中要注意它的編碼格式如果出現了中文建議使用
gbk格式及在檔案上新增
#coding=gbk
#coding=gbk
'''created on 2023年7月12日
@author: lenovo
'''import urllib.request
data=urllib.request.urlopen(
"").read(
)print
(data)
#自動提取課程頁面的qq群
先是將通過url將資料讀取出來在將新增正規表示式
如果不懂正規表示式 參考我的另一篇部落格
import urllib.request
import re
data=urllib.request.urlopen(
"").read(
).decode(
"utf-8"
)pat=
'(\w*?)
'result=re.
compile
(pat)
.findall(data)
print
(result)
file
=open
('f:\test1\input.txt'
,'a+'
)for i in result:
file
.write(
"\n"
+i)file
.close(
)
info()看相應的簡介
getcode()判斷狀態碼
geturl()返回當前網頁的url
#coding=gbk
import urllib.request
import re
urllib.request.urlretrieve(
"","f:\test1\dow.html"
)urllib.request.urlcleanup(
)#info()看相應的簡介
file
=urllib.request.urlopen(
"")print
(file
.info())
#getcode()判斷狀態碼
print
(file
.getcode())
#geturl()返回當前網頁的url
print
(file
.geturl(
))
#超時設定
for i in
range(0
,100):
try:
file
=urllib.request.urlopen(
"", timeout=1)
print
(len
(file
.read())
)except exception as err:
print
("出現異常"
Python爬蟲學習 三 爬蟲的基本操作流程
一般我們使用python爬蟲都是希望實現一套完整的功能,如下 1.爬蟲目標資料 資訊 2.將資料或資訊存入資料庫中 3.資料展示,即在web端進行顯示,並有自己的分析說明。這次我先介紹第乙個功能中所需要實現的基本操作 匯入爬蟲所需要的庫 如 urllib urllib2 beautifulsoup ...
python爬蟲基本流程 Python爬蟲流程
python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...
網路爬蟲基本練習
0.可以新建乙個用於練習的html檔案,在瀏覽器中開啟。1.利用requests.get url 獲取網頁頁面的html檔案 import requests newsurl res requests.get newsurl 返回response物件 res.encoding utf 8 2.利用be...