urllib包:抓取網頁,處理url,包含模組:
用urllib實現簡單的網頁抓取
# -*- coding: utf-8 -*-
from urllib import request
import chardet
if __name__ ==
"__main__"
: response = request.urlopen(
"") html = response.read(
) charset = chardet.detect(html)
html = html.decode(charset[
"encoding"])
print
(html)
f =open
('out.txt'
,'w+'
, encoding=
'utf-8'
) f.write(html)
f.close(
)
找)
urlopen可以處理string或request物件
obj = request.request(
"/") response = request.urlopen(obj)
request物件的其他函式:
geturl():返回url注意: 寫入txt時要指定utf-8格式(預設gbk)info():返回meta標記 2
的資訊getcode():返回http狀態碼 3
報錯資訊:
traceback (most recent call last)
: file "c:/users/machenike/pycharmprojects/untitled/crawler_demo1.py"
, line 12,in
f.write(html)
unicodeencodeerror:
'gbk' codec can't encode character '\u0e02' in position 58895
: illegal multibyte sequence
head標籤-charset ↩︎
↩︎
urllib2抓取網頁內容
urllib和urllib2 1 urllib 僅可以接受 url,urllib2 可以接受 個設定了 headers 的 request 類例項。這表示我們可以偽裝 的 user agent 字串等。2 urllib 提供 urlencode 法 來 get 查詢字串的產 urllib2 沒有。這...
Python3網頁抓取urllib
開啟網頁的過程其實就是瀏覽器作為乙個瀏覽的 客戶端 向伺服器端傳送了一次請求,把伺服器端的檔案 抓 到本地,再進行解釋 展現。爬蟲最主要的處理物件就是url,它根據url位址取得所需要的檔案內容,然後對它進行進一步的處理。網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。類似...
Urllib資料抓取
python 3中,urllib是乙個收集幾個模組來使用url的軟體包,具備以下幾個功能 urllib.request.urlopen url,data none,timeout,data 預設值為none,表示請求方式為get,反之為post timeout 超時設定 匯入urllib impor...