很多做資料分析的同學會抱怨沒有實際資料,感覺巧婦難為無公尺之炊,而火車頭採集器一類的軟體很難完成一些定製性很強的資料採集任務,這時候就需要自己編寫爬蟲來採集資料了。python是目前做爬蟲比較流行的工具。
爬蟲一般通過傳送http/https請求,從伺服器獲取資料,進一步解析獲取的資料,最後得到有用的資訊。而爬蟲傳送的http/https請求主要是get和post兩類請求資料。
簡單的get請求:
importurllib2
url ="
"result =urllib2.urlopen(url)
print result.read()
上述**傳送了乙個的https請求給豆瓣movie的伺服器,並將伺服器返回的資訊載入過來列印到螢幕上。
也可以傳送帶引數的get 請求:
importurllib2
params =
url ="
"result = urllib2.urlopen(url%params)
print result.read()
上述**傳送了乙個http的get請求,並新增了引數n和id。
importurllib2
import
urllib
#定義要提交的資料
postdata=
#postdata編碼
postdata=urllib.urlencode(postdata)
request = urllib2.request('
',postdata)
response=urllib2.urlopen(request)
print response
上述**傳送了乙個登陸的post請求,模擬登陸是資料採集常用的乙個功能,後面我會有更詳細的介紹.
其實python傳送http/https的包有很多,這裡我只用了urllib2,除此之外還有urllib,更底層的httplib,還有乙個第三方包requests.
說到第三方包,用python做爬蟲的一大優勢就是它有很多很好用的爬蟲相關的第三方包,後面我會一一介紹.
Python爬蟲入門一
作為入門學習,我選擇了乙個靜態 生物資訊交流分享論壇 public library of bioinformatics plob 第一次嘗試,只抓取網頁文字部分。安裝requests庫和bs4庫 前者用來鏈結 和處理http協議 後者將網頁變成結構化資料,方便抓取。easy install requ...
Python爬蟲入門 一
python版本 2.7 首先爬蟲是什麼?網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。根據我的經驗,要學習python爬蟲,我們要學習的共有以下幾點 首先,我們要用python寫爬蟲,肯定要了解p...
python 爬蟲入門 一)
今天學了python爬蟲,很有意思,寫一下部落格記錄一下學習過程。最基本的爬蟲僅需要urllib庫,re庫和chardet庫 urllib庫是python內建的處理網路請求的庫。對於基本的爬蟲我們僅僅需要使用他的內部模組urllib.requset。urllib.request中所要使用的函式 ur...