在爬66ip**的時候,發現一直返回的是521,在csdn看了很多大神的解決方法,感覺很厲害(膜拜一下),也挺麻煩的,我自己試了selenium就成功了,而且也挺快的,簡單**如下:
# 設定無介面
chrome_options = options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
url =''
driver = webdriver.chrome(options=chrome_options)
driver.get(url)
time.sleep(2)
tr_list = driver.find_elements_by_xpath('//div[@class="containerbox boxindex"]/div/table/tbody/tr') # 這裡的tbody不用省略...
print(proxy)
注意的是,這裡的tbody也是乙個坑,之前爬取遇到tbody都會省略,在這裡卻是不用的,花了我些時間發現了這個問題,果然經驗還是太少了… HTTP方法和狀態碼
get方法 獲取資源 head方法 獲取報文首部 不返回報文實體主體部分,主要用於確認url的有效性以及資源更新的日期時間等 post方法 傳輸實體主體 post傳輸資料 get獲取資源 put 上傳檔案 因不帶驗證機制,任何人都可以上傳檔案,因此存在安全問題,一般不使用該方法 patch 對資源進...
狀態碼的類別以及常用狀態碼
狀態碼由三位數字和原因短語組成,如200 ok。三位數字中第一位指定響應類別,後兩位無分類。第一位數字的響應類別有5種。如下 類別及原因短語 1xxinformational 資訊性狀態碼 接收的請求正在處理 2xxsuccess 成功狀態碼 請求正常處理完畢 3xxredirection 重定向狀...
http的常用方法和狀態碼
http常用的方法 1.get 伺服器向客戶端傳送資源,一般來說,是不需要傳入引數就可以檢視某些資訊。2.post 客戶端向伺服器傳送請求,一般來說,是傳入引數,服務端接收到客戶端的引數,選擇性的發給客戶端想要的資源 3.delete 在伺服器刪除資源 4.put 在伺服器修改資源 更新,重複的話就...