爬蟲簡介
根據百度百科定義:網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
隨著大資料的不斷發展,爬蟲這個技術慢慢走入人們的視野,可以說爬蟲是大資料應運而生的產物,至少我解除了大資料才了解到爬蟲這一技術
隨著資料的海量增長,我們需要在網際網路上選取所需要的資料進行自己研究的分析和實驗。這就用到了爬蟲這一技術,下面就跟著小編一起初遇python爬蟲!
一、請求-響應
在利用python語言實現爬蟲時,主要用到了urllib和urllib2兩個庫。首先用一段**說明如下:
import urllib
import urllib2
urynanckimigl=""
request=urllib2.request(url)
response=urllib2.urlopen(request)
print response.read()
我們知道乙個網頁就是以html為骨架,js為肌肉,css為衣服所構成的。上述**所實現的功能就是把百度網頁的原始碼爬取到本地。
其中,url為要爬取的網頁的**;request發出請求是接受請求後給出的響應。最後用read()函式輸出的就是百度網頁的原始碼。
二、get-post
兩者都是向網頁傳遞資料,最重要的區別是getynanckimig方式是直接以鏈結形式訪問,鏈結中包含了所有的引數,當然如果包含了密碼的話是一種不安全的選擇,不過你可以直觀地看到自己提交了什麼內容。
post則不會在**上顯示所有的引數,不過如果你想直接檢視提交了什麼就不太方便了,大家可以酌情選擇。
post方式:
import urllib
import urllib2
values=
data=urllib.urlencode(values)
url=''
request=urllib2.request(url,data)
response=urllib2.urlopen(request)
print response.read()
get方式:
import urllib
import urlynanckimiglib2
values=
data=urllib.urlenco程式設計客棧de(values)
url = ""
geturl = url + "?"+data
request=urllib2.request(geturl)
response=urllib2.urlopen(request)
print response.read()
三、異常處理
處理異常時,用到了try-except語句。
import urllib2
try:
response=urllib2.urlopen("")
except urllib2.urlerror,e:
print e.reason
總結本文標題: python爬蟲基本知識
本文位址:
python 爬蟲 學習 1 基本知識篇)
首先介紹下urllib的用法 urllib提供了一系列用於操作url的功能。常用的模組 urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 urllib的ruquest模組可以非常方便地抓取url內容,也就是傳送乙個get請求到指...
Python資料分析 爬蟲基本知識
爬蟲 爬蟲基本架構 網頁解析模組 如果解析到要繼續爬取的url,返回url管理模組繼續迴圈 url管理模組 實現方式 response urllib.request.urlopen url response.getcode response.read request urllib.request.r...
Python基本知識
這次主要對python基礎語法及資料型別中與我使用過的語言不一樣的地方做下記錄 單行注釋使用 多行注釋使用 和 print 開始 這是個注釋 這是個段落注釋 這也是個段落注釋 print 結束 2.沒有bool型別,用數字0和1代替,可以與數字運算,python3中新增了true和false關鍵字 ...