這章我們用python標準庫urllib2來實現簡單的網路爬蟲(本章很簡單適合小白,不喜勿噴)
一、urllib2定義了以下方法:
urllib2.urlopen( url, data, timeout )
data引數:post資料提交(例如:賬號密碼傳送給伺服器判斷登陸)
url引數:網頁url,可接受request物件。
返回乙個類似於open檔案物件 從中讀取網頁資料
urllib2.request( url, data=none, headers={} )
注意r大寫
data為none時,傳送的是get請求,反之post
二、urllib2小案例
python製作乙個簡單網路爬蟲
import urllib
import urllib2
import re
if __name__ == '__main__':
url = ""
res = urllib.urlopen(url).read()
# 編譯為pattern模式 匹配 取出列表中第乙個資料
r = re.compile(r"download the latest version for windows[\s\s]+?[\
s\s]+?").findall(res)[0]
# 進行資料清洗
li = re.compile(r'a class="button" href="(.*?)">(.*?)<').findall(r)
# 進行輸出
py3x = li[0]
py2x = li[1]
print py3x[1]+":"+py3x[0]+"\n"+py2x[1]+":"+py2x[0]
獲得以下資料:
download python 3.6.0:
download python 2.7.13:
以上就是乙個簡單的網路爬蟲,希望對你有所幫助。
python 使用python做乙個簡單爬蟲
爬蟲的步驟如下 1.獲取資料 2.篩選資料 3.儲存資料 4.顯示資料 在這裡我們主要使用urllib2庫來對網頁進行爬取,本次我們爬取的參考 是 我們可以觀察內容 發現正文的內容都在這個標籤內,所以我們可以通過正則篩選出內容 正則內容如下 pattern re.compile r re.s 然後再...
製作乙個網路通訊類(一)
tcplistener類提供一些簡單方法,用於在同步阻塞模式下偵聽和接受傳入連線請求。tcpclient 類提供了一些簡單的方法,用於在同步阻塞模式下通過網路來連線 傳送和接收流資料。每個ctcptalk物件中包含乙個用於監聽的tcplistener部件,乙個用於傳輸資料的tcpclient部件,和...
利用python語言製作乙個簡單的飛機大戰小遊戲
第二步驟 當飛機大戰所需要的素材包準備完成後,下面我們開始對玩家操控的飛機的程式進行編寫 程式如下 import pygame import random import time class regou definit self,plane,screen self.screen screen sel...