如何使用python寫爬蟲程式?

2021-10-14 04:12:21 字數 1085 閱讀 9564

python編寫爬蟲的整體思路簡單清晰,下面來說一下具體的步驟:

先來看**,在解釋,乙個簡單的網路爬蟲示例

import requests

from bs4 import beautifulsoup

#58同城的二手市場主頁面

start_url =

''url_host =

''#定義乙個爬蟲函式來獲取二手市場頁面中的全部大類頁面的連線

defget_channel_urls

(url)

:#使用requests庫來進行一次請求

web_data = requests.get(url)

#使用beautifulsoup對獲取到的頁面進行解析

soup = beautifulsoup(web_data.text,

'lxml'

)#根據頁面內的定位資訊獲取到全部大類所對應的連線

urls = soup.select(

'ul.ym-submnu > li > b > a'

)#作這兩行處理是因為有的標籤有鏈結,但是卻是空內容

for link in urls:

if link.text.isspace():

continue

else

: page_url = url_host + link.get(

'href'

)print

(page_url)

整體思路流程

簡單**演示

準備工作

requests庫:用於向指定url發起請求

beautifulsoup庫:用於解析返回的網頁資訊

lxml庫:用於解析網頁返回結果

pymongo庫:用於實現python對mongodb的操作

對所需要的網頁進行請求並解析返回的資料

對於想要做乙個簡單的爬蟲而言,這一步其實很簡單,主要是通過requests庫來進行請求,然後對返回的資料進行乙個解析,解析之後通過對於元素的定位和選擇來獲取所需要的資料元素,進而獲取到資料的乙個過程。

如何使用python寫爬蟲程式

python編寫爬蟲的整體思路簡單清晰,下面來說一下具體的步驟 先來看 在解釋,乙個簡單的網路爬蟲示例 import requests from bs4 import beautifulsoup 58同城的二手市場主頁面 start url url host 定義乙個爬蟲函式來獲取二手市場頁面中的全...

python寫網路爬蟲

注 本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式,用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...

python寫乙個簡單爬蟲程式

python寫乙個簡單爬蟲程式 先看輸出結果 d 應用集合 python 1.py 名稱 詭秘之主 名稱 超神機械師 名稱 九星毒奶 名稱 第一序列 名稱 明天下 名稱 爛柯棋緣 名稱 虧成首富從遊戲開始 名稱 我師兄實在太穩健了 名稱 輪迴樂園 名稱 當醫生開了外掛程式 名稱 學霸的黑科技系統 名...