爬蟲的步驟如下:
1.獲取資料
2.篩選資料
3.儲存資料
4.顯示資料
在這裡我們主要使用urllib2庫來對網頁進行爬取,本次我們爬取的參考**是:
我們可以觀察內容:
發現正文的內容都在這個標籤內,所以我們可以通過正則篩選出內容
正則內容如下:
pattern = re.compile(r'(.*?)',re.s)
然後再將其中的
等標籤替換掉
item = item.replace("","").replace("
","").replace("
","")
**如下:
# -*- encoding:utf-8 -*-
import urllib2
import re
class spider:
"""笑話大全爬蟲類
"""def loadpage(self,page):
"""@brief 定義乙個url請求網頁的方法
@param page 需要請求的第幾頁
@returns 返回的頁面html
:param page:
:return:
"""url = ""
headers =
req = urllib2.request(url,headers = headers)
resp = urllib2.urlopen(req)
html = resp.read()
gbk_html = html.decode('gbk').encode('utf-8')
# print(gbk_html)
# 找到內容
# re.s 如果沒有re.s 則是只匹配一行有沒有符合規則的字串,如果沒有則下一行重新匹配
# 如果加上re.s 則是將所有的字串將乙個整體進行匹配
pattern = re.compile(r'(.*?)',re.s)
item_list = pattern.findall(gbk_html)
return item_list
def printonepage(self,item_list):
print("******列印爬蟲獲取到的資料******")
for item in item_list:
item = item.replace("","").replace("
","").replace("
","")
print("="*20)
print(item)
if __name__ == '__main__':
"""爬蟲
"""# 建立乙個物件
myspider = spider()
item_list = myspider.loadpage(1)
myspider.printonepage(item_list)
執行結果如下:
使用Python做web開發
環境 步驟1 pip3 install django 1.11.1步驟2 由於採用pip3 安裝,所以django admin可以直接使用,否則需要進入 usr bin python3.5 中使用python3 django admin.py startproject c django admin ...
使用python做科學計算
這裡總結乙個guide,主要針對剛開始做資料探勘和資料分析的同學 說道統計分析工具你一定想到像excel,spss,sas,matlab以及r語言。r語言是這裡面比較火的,它的強項是強大的繪圖功能以及強大豐富的統計包,通過這個平台你可以了解統計前言的一些實現。它的唯一的問題就是效能問題。所以有時候你...
如何使用pyflakes給python做語法檢查
python是一門動態語言。在給python傳引數的時候並沒有嚴格的型別限制。寫python程式的時候,發現錯誤經常只能在執行的時候發現。有一些錯誤由於隱藏的比較深,只有特定邏輯才會觸發,往往導致需要花很多時間才能將語法錯誤慢慢排查出來。其實有一些錯誤是很明顯的,假如能在寫程式的時候發現這些錯誤,就...