注:本文旨在練習正規表示式的簡單使用方法
#!/usr/bin/evn python
# -*- coding: cp936 -*-
def gethtml(url): #定義gethtml()函式,用來獲取頁面源**
page = urllib.urlopen(url) #urlopen()根據url來獲取頁面源**
html = page.read() #從獲取的物件中讀取內容
return html
uri = raw_input("請輸入**: ")
執行指令碼test.py
抓取到的如下:
學習python寫網路爬蟲(一)
最簡單的爬蟲 import urllib2 defdownload url return urllib2.urlopen url read print download 更加健壯的版本,可以捕獲異常了 import urllib2 defdownload url print downloading ...
python寫網路爬蟲的環境搭建
網上找了好多資料,都不全,通過資料的整理,包括自己的測試,終於把環境打好了,真是對於乙個剛接觸爬蟲的人來說實屬不易,現在分享給大家,若有不夠詳細之處,希望各位能補充。這裡有乙個巨坑,python2.x與python3.x變化實在是太大,博主開始用的python2.7,後來發現很多模組版本太新,根本沒...
python做爬蟲難嗎 python寫爬蟲難嗎
所謂網路爬蟲,通俗的講,就是通過向我們需要的url發出http請求,獲取該url對應的http報文主體內容,之後提取該報文主體中我們所需要的資訊。下面是乙個簡單的爬蟲程式 http基本知識 當我們通過瀏覽器訪問指定的url時,需要遵守http協議。本節將介紹一些關於http的基礎知識。http基本流...