python網路爬蟲基本的操作

2021-09-25 07:01:59 字數 2324 閱讀 2989

學習了一下python網路爬蟲以下是我做的例項

在其中要注意它的編碼格式如果出現了中文建議使用

gbk格式及在檔案上新增

#coding=gbk

#coding=gbk

'''created on 2023年7月12日

@author: lenovo

'''import urllib.request

data=urllib.request.urlopen(

"").read(

)print

(data)

#自動提取課程頁面的qq群

先是將通過url將資料讀取出來在將新增正規表示式

如果不懂正規表示式 參考我的另一篇部落格

import urllib.request

import re

data=urllib.request.urlopen(

"").read(

).decode(

"utf-8"

)pat=

'(\w*?)

'result=re.

compile

(pat)

.findall(data)

print

(result)

file

=open

('f:\test1\input.txt'

,'a+'

)for i in result:

file

.write(

"\n"

+i)file

.close(

)

info()看相應的簡介

getcode()判斷狀態碼

geturl()返回當前網頁的url

#coding=gbk

import urllib.request

import re

urllib.request.urlretrieve(

"","f:\test1\dow.html"

)urllib.request.urlcleanup(

)#info()看相應的簡介

file

=urllib.request.urlopen(

"")print

(file

.info())

#getcode()判斷狀態碼

print

(file

.getcode())

#geturl()返回當前網頁的url

print

(file

.geturl(

))

#超時設定

for i in

range(0

,100):

try:

file

=urllib.request.urlopen(

"", timeout=1)

print

(len

(file

.read())

)except exception as err:

print

("出現異常"

Python爬蟲學習 三 爬蟲的基本操作流程

一般我們使用python爬蟲都是希望實現一套完整的功能,如下 1.爬蟲目標資料 資訊 2.將資料或資訊存入資料庫中 3.資料展示,即在web端進行顯示,並有自己的分析說明。這次我先介紹第乙個功能中所需要實現的基本操作 匯入爬蟲所需要的庫 如 urllib urllib2 beautifulsoup ...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...

網路爬蟲基本練習

0.可以新建乙個用於練習的html檔案,在瀏覽器中開啟。1.利用requests.get url 獲取網頁頁面的html檔案 import requests newsurl res requests.get newsurl 返回response物件 res.encoding utf 8 2.利用be...