'''
1、有爬蟲限制,因此必須修改user-agent才可以爬取
2、乙個user-agent只能連續爬取幾次便被和諧了,因此程式要自動更改user-agent才能連續不間斷地訪問爬取
3、根據網頁簡單的特點,可以直接擷取自己需要的資訊行列印出來
4、由於是用於練習、檢驗**是否可行,勉強說服自己暫時不用遵守robots協議
5、為了網路的健康發展,要自覺遵守robos協議
'''import requests
url = ''
try:
p =
kv5 =
#多個user-agent
kv4 =
kv3 =
kv2 =
kv = [kv2,kv3,kv4,kv5]
for i in range(2):
for k in kv:
#遍歷user-agent列表
hed = k
r = requests.get(url,params = p,headers = hed)
#寫入ip,修改headers的user-agent
r.raise_for_status()
#檢查是否連線正常,異常的話將**捉並執行except語句
print(r.text[7530:7573]) #查詢後顯示位址的位置
print(r.request.headers) #列印頭部資訊
jishu += 1 #爬蟲計數
print("爬取次數:{}".format(jishu))
except:
print("default")
print("爬取次數:{}".format(jishu))
Python從0開始 學習旅程5
一 資料結構 python中存在三種重要的資料結構,即列表 元組和字典,下面將一一介紹這三種資料結構。列表 例子 in 1 定義列表 ls monday tueaday wednesday thursday friday saturdat in 2 print ls monday tueaday w...
Python從0開始 安裝
進入官網 選擇download downloads 直接選擇最新版本安裝。是exe檔案,直接下一步下一步,要勾選path.我為了方便在台式電腦和筆記本都安裝了 神奇的事情發生了,正常應該顯示 但是我在台式電腦上輸入測試正常,筆記本提示的是如下 python is not recognized as ...
從0開始Python 變數
變數是程式中乙個臨時存放資料的場所。在執行程式的時候變數是可以改變的,並且改變次數是不確定的。需要注意的是變數必須先定義才能使用。我們可以先定義乙個名字為a的變數 a 10 現在我們就定義了乙個名字為a的變數,這個變數所對應的資料為10。現在我們來列印這個變數,並利用type函式來獲取這個變數的資料...