以下內容**
為了做乙個筆記,所以我拷貝了乙份,也供大家一起學習!
安裝bs4庫
安裝lxml庫
# ip位址取自國內髙匿**ip**:
# 僅僅爬取首頁ip位址就足夠一般使用
from bs4 import beautifulsoup
import requests
import random
defget_ip_list
(url, headers):
web_data = requests.get(url, headers=headers)
soup = beautifulsoup(web_data.text, 'lxml')
ips = soup.find_all('tr')
ip_list =
for i in range(1, len(ips)):
ip_info = ips[i]
tds = ip_info.find_all('td')
return ip_list
defget_random_ip
(ip_list):
proxy_list =
for ip in ip_list:
proxy_ip = random.choice(proxy_list)
proxies =
return proxies
if __name__ == '__main__':
url = ''
headers =
ip_list = get_ip_list(url, headers=headers)
proxies = get_random_ip(ip_list)
print(proxies)
函式get_random_ip(ip_list)傳入第乙個函式得到的列表,返回乙個隨機的proxies,這個proxies可以傳入到requests的get方法中,這樣就可以做到每次執行都使用不同的ip訪問被爬取的**,有效地避免了真實ip被封的風險。proxies的格式是乙個字典:。
web_data =requests.get(url, headers=headers, proxies=proxies)
python爬蟲 開始爬蟲前的準備工作
學習python爬蟲也有一段時間了,各種爬蟲技術多多少少也接觸過一些。因為有學弟學妹說想學爬蟲,我萌生了寫個簡單的python爬蟲教程的想法。一來,給學弟學妹們提供方便,提供乙個入門的渠道 二來,總結這些天自身所學,希望可以藉此提高自己,加深認識 三來,如果偶爾有大佬路過,求大佬指出文中錯誤的地方,...
ROS學習(1) 開始的開始
從今開始就要正式開始進行ros的學習了,學習ros應該說是興趣使然,雖然還有大半年的時間就面臨著畢業 但是感覺自己身上的壓力沒有那麼多,也有時間開始學習一些新的東西。而且思考了一下自己的學習路線,感覺之前所學都是為了ros來鋪的路,我學習了c 學習了qt,學習了opencv,學習了pcl,雖然這些都...
redis學習 01 開始的開始
海量使用者 高併發 效能瓶頸 磁碟io效能低下 擴充套件瓶頸 資料關係複雜,擴充套件性差,不便於大規模集群 降低磁碟io次數,越低越好 記憶體儲存 去除資料間關係,越簡單越好 不儲存關係,僅儲存資料nosql 即 not only sql 泛指非關係型的資料庫 作為關係型資料庫的補充。作用 應對基於...