urllib簡單網頁抓取

urllib包：抓取網頁，處理url，包含模組：

用urllib實現簡單的網頁抓取

# -*- coding: utf-8 -*-
from urllib import request
import chardet
if __name__ ==
"__main__"
:    response = request.urlopen(
"")    html = response.read(
)    charset = chardet.detect(html) 
html = html.decode(charset[
"encoding"])
print
(html)
f =open
('out.txt'
,'w+'
, encoding=
'utf-8'
)    f.write(html)
f.close(
)

找）

urlopen可以處理string或request物件

obj = request.request(
"/")    response = request.urlopen(obj)

request物件的其他函式：

geturl（）：返回url

info（）：返回meta標記 2

的資訊getcode（）：返回http狀態碼 3

注意：寫入txt時要指定utf-8格式（預設gbk）

報錯資訊：

traceback (most recent call last) : file "c:/users/machenike/pycharmprojects/untitled/crawler_demo1.py" , line 12,in f.write(html) unicodeencodeerror: 'gbk' codec can't encode character '\u0e02' in position 58895

: illegal multibyte sequence

head標籤-charset ↩︎

↩︎

urllib2抓取網頁內容

urllib和urllib2 1 urllib 僅可以接受 url，urllib2 可以接受個設定了 headers 的 request 類例項。這表示我們可以偽裝的 user agent 字串等。2 urllib 提供 urlencode 法來 get 查詢字串的產 urllib2 沒有。這...

Python3網頁抓取urllib

開啟網頁的過程其實就是瀏覽器作為乙個瀏覽的客戶端向伺服器端傳送了一次請求，把伺服器端的檔案抓到本地，再進行解釋展現。爬蟲最主要的處理物件就是url，它根據url位址取得所需要的檔案內容，然後對它進行進一步的處理。網頁抓取，就是把url位址中指定的網路資源從網路流中讀取出來，儲存到本地。類似...

Urllib資料抓取

python 3中，urllib是乙個收集幾個模組來使用url的軟體包，具備以下幾個功能 urllib.request.urlopen url,data none,timeout,data 預設值為none，表示請求方式為get，反之為post timeout 超時設定匯入urllib impor...

urllib簡單網頁抓取

urllib2抓取網頁內容

Python3網頁抓取urllib

Urllib資料抓取

相關推薦