專案**
from bs4 import beautifulsoupimport requests
url_prefix = ''
infos =
# 獲取單個頁面資料
def getapage(url,data = none):
web_data = requests.get(url)
soup = beautifulsoup(web_data.text,'lxml')
# print(soup)
images = soup.select('header > a > img')
titles = soup.select('section > h4 > a')
links = soup.select('a.cover-inner')
likes = soup.select('span.fanciers_count')
if data == none:
for image,title,link,like in zip(images,titles,links,likes):
data =
print(data)
# 獲取多個載入的資料
def getmorepages(start,end):
for url_suffix in range(start,end):
getapage(url_prefix + str(url_suffix))
print('---------------已經獲取{}條資料---------------'.format(len(infos)), sep='\n')
# 獲取點讚排名前幾的資料
def getinfosbylikes(order,infos =infos):
infos = sorted(infos,key= lambda info:info['like'],reverse = true)
for info in infos[:order]:
print(info['like'],info['title'],info['image'],info['link'])
getmorepages(1,4)
getinfosbylikes(5)
專案特點:
【**】同步載入、非同步載入、延遲載入
爬取的**鏈結
knewone
python爬蟲 非同步爬蟲
壞處 無法無限制的開啟多執行緒或者多程序。執行緒池 程序池 適當使用 使用非同步實現高效能的資料爬取操作 人多力量大 環境安裝 pip install aiohttp 使用該模組中的clientsession 2表示同時存在兩個協程 pool pool 2 urls for i in range 1...
python爬蟲 練習
目錄通用爬蟲 聚焦爬蟲 聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如 獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的資料值。增量式爬蟲 通過爬蟲程式監測某 資料更新的情況,以便可以爬取到該 更新出的新資料。1 發起請求 使用http庫向目標站點發起請求,即傳送乙個request req...
python簡單爬蟲練習
開始學爬蟲了,記錄一下這兩天的瞎鼓搗 先從最簡單的來,指定乙個url,把整個網頁 抓下來,這裡就拿csdn的主頁實驗 coding utf 8 from urllib import request url html request.urlopen url 注意這裡要以utf 8編碼方式開啟 with...