Python 第乙個爬蟲

2022-01-29 13:08:33 字數 1167 閱讀 2479

1

import

urllib.request

2importre3

4class

downpic:56

def__init__

(self,url,re_str):

7 self.url =url

8 self.re_str =re_str910

defgethtml(self,url):

11 page =urllib.request.urlopen(url)

12 html =page.read()

13return

str(html)

1415

defdownloadpic(self):

16 imgre = re.compile(self.re_str) #

構造正則

17 html = self.gethtml(self.url) #

讀取介面

將取到本地

24except:25

print("

error")

26 x += 1

下面是呼叫:

1

from downpic import

downpic

23 downpic = downpic("

",r'

src="(" pic_ext')

45downpic.downloadpic()

6print("

over

")

從上面可以看到,乙個簡單爬蟲的基本步驟是:

1、讀取介面的html

2、用正則去獲取到目標鏈結

python爬蟲 第乙個爬蟲

1.本地安裝了nginx,在預設的html目錄下建立測試html 如圖,即index.html導向a,b,c 3個html,a.html又可以導向aa,bb兩個html,c.html可以導向cc.html。2.修改nignx配置使得本地可以訪問寫的kmtest裡的index.html。參考文件 ng...

第乙個爬蟲

很多人學習python的目的就是為了學習能夠實現爬蟲的功能,這裡,我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立,和執行。1,第一步是安裝scrapy,我相信到了這一步,大多數人都已經會安裝第三方庫檔案了,這裡主要是使用命令pip install sc...

第乙個爬蟲

一 程式測試 二 開啟360網頁 三 html計算 四 中國大學排名 爬取年費2018 五 函式介紹總結 1.requests 庫的網頁請求函式 函式 說明 get url timeout n 對應http的get方式,設定請求超時時間為n秒 post url,data 對應http的post方式,...