02 使用上述01安裝庫實現最簡單的網路爬蟲

2021-08-09 06:59:35 字數 1793 閱讀 6609

本篇以簡單的python程式**為例,爬取貓途網(單頁**中所有景點位址標題兩條資訊。如下圖所示:

1)使用pycharm整合開發環境建立trip_advisor.py的python檔案

2)在py檔案開頭引入庫

from bs4 import beautifulsoup

import requests

3)使用requests庫獲取網頁資料(對於get方法)

url = ''

wb_data = requests.get(url)

print(wb_data.text)

#列印部分結果如下:

# # # # # # # # # ..........

4)使用beautifulsoup和lxml庫解析網頁資料

url = ''

wb_data = requests.get(url)

soup = beautifulsoup(wb_data.text, 'lxml')

print(soup)

#列印部分結果如下:

# # # # # # # # #......

5)使用beautifulsoup中的select()方法獲取位址與標題所對應的html結構元素

url = ''

wb_data = requests.get(url)

soup = beautifulsoup(wb_data.text, 'lxml')

titles = soup.select('div.listing_title > a')

print(images, titles, sep='\n')

# 列印部分結果如下(images與titles為列表結構):

# [# [, 南普陀寺, 廈門大學, 中山路步行街......]

6)對images與titles的列表進行迴圈,並獲取位址與標題資訊(完整**如下)

from bs4 import beautifulsoup

import requests

url = ''

wb_data = requests.get(url)

soup = beautifulsoup(wb_data.text, 'lxml')

titles = soup.select('div.listing_title > a')

# print(images, titles, sep='\n')

for image, title in zip(images, titles):

data =

print(data)

#部分列印結果如下:

# #

# #

# #

# #

# #

# #

# #

# #

# #

說明:此處獲取html結構資訊的方法中,位址image獲取採用get('標籤名『)的方法,標題title採用get_text()獲取文字的方法。

01 elasticsearch 安裝使用

elasticsearch是基於lucene分布式的全文搜尋引擎,對外提供 這種rest風格的介面。2012年出的比solr晚出。使用場景,lucene和solr搞不定的資料量的索引專案。elasticsearch的核心概念和資料庫的對應關係 資料庫 elasticsearch database i...

01 Element UI安裝與使用

一 element ui的簡介 element ui 餓了麼前端出品的一套 基於 vue 2.0 的桌面端元件庫,官方開發文件 二 element ui的安裝 常使用npm的方式安裝element ui。1.npm安裝 npm i element ui s 在vue專案目錄下cmd命令窗npm進行安...

Python學習篇 01 安裝使用Python

這裡主要介紹下學習python的前期準備。本人使用的是windows版,暫不熟悉linux版以及mac os版。安裝成功後在命令列直接輸入python可以看到當前python的版本則說明安裝正確,如下圖所示 從此處可以看到安裝的版本是2.7.11。到這裡已經完成了python的安裝,可以嘗試編寫py...