Python3 網路爬蟲 1

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。

首先我們向網路伺服器傳送get請求以獲取具體的網頁，再從網頁中讀取html內容。

[python]view plain

copy

print?

#coding:utf-8

from urllib.request import urlopen

html=urlopen(」

print(html.read())

#coding:utf-8 
from urllib.request import urlopen 
html=urlopen("") 
print(html.read())

當我們執行這個程式後會得到如下的結果：

大家仔細看我們拿回的網頁**會發現，這個程式中拿回來的html中為什麼會有些\xe8\xb4\xb4\xe5的東西，其實呢這個是編碼問題，大家仔細觀察會發現，在html**最前面有b這個字母，後面的html**用引號括起來了，這就表示這是個bytes型別的位元組序列，在這種型別的序列中，中文會用16進製制進行表示，所以我們看不到中文了。關於這個問題呢，是python中的編碼問題，我們可以通過解碼操作來對bytes進行解碼，這就就要用到decode函式了

下面我們只要稍微修改下**：

[python]view plain

copy

print?

#coding:utf-8

from urllib.request import urlopen

html=urlopen(」

print(html.read().decode(『utf-8』))

#coding:utf-8 
from urllib.request import urlopen 
html=urlopen("") 
print(html.read().decode('utf-8'))

當我們再次執行這個程式會得到如下的結果：

[python]view plain

copy

print?

現在我們就可以讀懂這個html了。

一番觀賞之後，我們來解釋下這個程式中用到的技術啊，程式中我們匯入了乙個urllib包中的函式用於訪問網頁。

首先來介紹下urlopen函式：

函式原型：def urlopen(url, data=none, proxies=none)

形參：（2）data ：向指定的url傳送的資料字串，get和post都可以，但必須符合標準格式，即key=value&key1=value1….

（3）proxies ：

**伺服器位址字典，如果未指定，在windows平台上則依據ie的設定，不支援需要驗證的**伺服器。

例如:proxies = ，該例子表示乙個http**伺服器

從**可以看到，我只用到了第乙個引數url，後兩個引數是可選的，可以根據自己的需求進行定義的，也可以不指定，這時使用的是預設的引數。

返回值：

返回乙個類似檔案物件的物件(file_like) object

該物件擁有的方法為：

info()返回從伺服器傳回的mime標籤頭，即網頁的頭部資訊。

geturl()返回真實的url,之所以稱為真實，是因為對於某些重定向的url,將返回被重定後的，大部分情況下可以認為就是我們輸入的**

其它的函式如 read()、readline()、 readlines()、fileno()、close()則和我們的檔案物件類似了。

下面我們來展示下info()的用法：

[python]view plain

copy

print?

#coding:utf-8

from urllib.request import urlopen

html=urlopen(」

print(html.info())

#coding:utf-8 
from urllib.request import urlopen 
html=urlopen("") 
print(html.info())

程式執行的結果為：

雖然這個返回的結果是很多的，但都是以鍵值對的形式展現給我們的，還是比較清晰易於理解的。

我們看看這句：content-type: text/html; charset=utf-8，它告訴我們這個網頁的文字格式是text/html，字符集是utf-8，後面的一些資訊大家有興趣的可以自己去查查資料，這裡就不一一說明了。

下面我們來看看網頁的狀態碼：

[python]view plain

copy

print?

#coding:utf-8

from urllib.request import urlopen

html=urlopen(」

print(html.getcode())

#coding:utf-8 
from urllib.request import urlopen 
html=urlopen("") 
print(html.getcode())

執行這個程式我們得到的結果是：200，這就說明我們的訪問的網頁是正常的，我們可以安心解析自己需要的東西了。

Python3 網路爬蟲 1

Python 3 網路爬蟲

初識Python3網路爬蟲

自學Python 3網路爬蟲（二）

Python3 網路爬蟲 1

Python 3 網路爬蟲

初識Python3網路爬蟲

自學Python 3網路爬蟲（二）

相關推薦