因為版本的問題,所以裡面講的**都需要自己再修改和查新
import urllib
s=urllib.urlopen("")
會報錯「」module 『urllib』 has no attribute 『urlopen』「」
這是因為版本的問題,修正如下:
from urllib.request import urlopen
s=urlopen("")
然後,不要一直重複open,會被目標主機認定為攻擊行為,關閉現有連線
這個直接用就可以
msg=s.info()
但是要注意下面的問題:
不能用這個
print
(msg.headers)
而應該用
print(s.getheaders())
這應該也是版本的問題
同樣的,還有,以下修改:
print("檢視s返回型別",type
(s))
輸出
檢視s返回型別
輸入
> print("檢視頭部資訊",s.info())
輸出
檢視頭部資訊 accept-ranges: bytes
connection: close
輸入
print("輸出頭部資訊",s.getheaders())
會輸出列表型別的頭部資訊
檢視頭部資訊 [('accept-ranges', 'bytes'), ('cache-control', 'max-age=86400'), ('content-length', '15832'), ('content-type', 'text/html'), ('date', 'sun, 09 sep 2018 01:55:22 gmt'), ('etag', '"
3dd8-574017538cf80"'), ('expires', 'mon, 10 sep 2018 01:55:22 gmt'), ('last-modified', 'wed, 22 aug 2018 07:54:54 gmt'), ('p3p', 'cp=" oti dsp cor iva our ind com "'), ('server', 'apache'), ('set-cookie', 'baiduid=6cb7f07e4a04ffc8e20146d1cfa3e328:fg=1; expires=mon, 09-sep-19 01:55:22 gmt; max-age=31536000; path=/; domain=.baidu.com; version=1'), ('vary', 'accept-encoding,user-agent'), ('connection', 'close')]
獲取頭部指定屬性的資訊
print("輸出頭部屬性資訊",s.getheader("server"))
輸出
輸出頭部屬性資訊 apache
檢視響應狀態資訊
print
("檢視狀態響應資訊",s.status)
輸出
檢視狀態響應資訊 200
檢視響應url位址
檢視響應url位址
print(page.decode("utf-8"))
前者會輸出十六進製制的資訊,後者會以「utf-8」格式正常輸出,限於幅度,可以自行測試。
print(s.info().items())
輸出
01:55:22 gmt; max-age=31536000; path=/; domain=.baidu.com; version=1'), ('vary', 'accept-encoding,user-agent'), ('connection', 'close')]小技巧,可以用 dir(s.info())方法檢視他下面所有包含的使用方法
麥子學院python教程 django入門
1 django的安裝和基本使用 2 django的helloworld執行 1 在blog 自定義的 資料夾中有乙個views.py,這是處理檢視的檔案,from django.shortcuts import render 引入該模組 定義了乙個函式,並返回乙個要在介面中顯示的檢視 2 需要將上...
python爬蟲小程式 python爬蟲學習小程式
coding utf 8 name 模組1 purpose author mrwang created 18 04 2014 licence import urllib def main url html urllib.urlopen url print html.read 讀取內容 print h...
python爬蟲基礎
一 什麼是爬蟲 通常爬蟲是從某個 的某個頁面開始,爬取這個頁面的內容,找到網頁中的其他鏈結位址,然後從這個位址爬到下乙個頁面,這樣一直不停的爬下去,進去批量的抓取資訊。那麼,我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。二 爬蟲的基本流程 1,發起請求 向目標站點傳送乙個requests請...