python 使用python做乙個簡單爬蟲

2021-08-20 13:00:46 字數 1780 閱讀 4007

爬蟲的步驟如下:

1.獲取資料

2.篩選資料

3.儲存資料

4.顯示資料

在這裡我們主要使用urllib2庫來對網頁進行爬取,本次我們爬取的參考**是:

我們可以觀察內容:

發現正文的內容都在這個標籤內,所以我們可以通過正則篩選出內容

正則內容如下:

pattern = re.compile(r'(.*?)',re.s)
然後再將其中的

等標籤替換掉

item = item.replace("","").replace("

","").replace("

","")

**如下:

# -*- encoding:utf-8 -*-

import urllib2

import re

class spider:

"""笑話大全爬蟲類

"""def loadpage(self,page):

"""@brief 定義乙個url請求網頁的方法

@param page 需要請求的第幾頁

@returns 返回的頁面html

:param page:

:return:

"""url = ""

headers =

req = urllib2.request(url,headers = headers)

resp = urllib2.urlopen(req)

html = resp.read()

gbk_html = html.decode('gbk').encode('utf-8')

# print(gbk_html)

# 找到內容

# re.s 如果沒有re.s 則是只匹配一行有沒有符合規則的字串,如果沒有則下一行重新匹配

# 如果加上re.s 則是將所有的字串將乙個整體進行匹配

pattern = re.compile(r'(.*?)',re.s)

item_list = pattern.findall(gbk_html)

return item_list

def printonepage(self,item_list):

print("******列印爬蟲獲取到的資料******")

for item in item_list:

item = item.replace("","").replace("

","").replace("

","")

print("="*20)

print(item)

if __name__ == '__main__':

"""爬蟲

"""# 建立乙個物件

myspider = spider()

item_list = myspider.loadpage(1)

myspider.printonepage(item_list)

執行結果如下:

使用Python做web開發

環境 步驟1 pip3 install django 1.11.1步驟2 由於採用pip3 安裝,所以django admin可以直接使用,否則需要進入 usr bin python3.5 中使用python3 django admin.py startproject c django admin ...

使用python做科學計算

這裡總結乙個guide,主要針對剛開始做資料探勘和資料分析的同學 說道統計分析工具你一定想到像excel,spss,sas,matlab以及r語言。r語言是這裡面比較火的,它的強項是強大的繪圖功能以及強大豐富的統計包,通過這個平台你可以了解統計前言的一些實現。它的唯一的問題就是效能問題。所以有時候你...

如何使用pyflakes給python做語法檢查

python是一門動態語言。在給python傳引數的時候並沒有嚴格的型別限制。寫python程式的時候,發現錯誤經常只能在執行的時候發現。有一些錯誤由於隱藏的比較深,只有特定邏輯才會觸發,往往導致需要花很多時間才能將語法錯誤慢慢排查出來。其實有一些錯誤是很明顯的,假如能在寫程式的時候發現這些錯誤,就...