如何使用python寫爬蟲程式？

python編寫爬蟲的整體思路簡單清晰，下面來說一下具體的步驟：

先來看**，在解釋，乙個簡單的網路爬蟲示例

import requests
from bs4 import beautifulsoup
#58同城的二手市場主頁面
start_url =
''url_host =
''#定義乙個爬蟲函式來獲取二手市場頁面中的全部大類頁面的連線
defget_channel_urls
(url)
:#使用requests庫來進行一次請求
web_data = requests.get(url)
#使用beautifulsoup對獲取到的頁面進行解析
soup = beautifulsoup(web_data.text,
'lxml'
)#根據頁面內的定位資訊獲取到全部大類所對應的連線
urls = soup.select(
'ul.ym-submnu > li > b > a'
)#作這兩行處理是因為有的標籤有鏈結，但是卻是空內容
for link in urls:
if link.text.isspace():
continue
else
:            page_url = url_host + link.get(
'href'
)print
(page_url)

整體思路流程

簡單**演示

準備工作

requests庫：用於向指定url發起請求

beautifulsoup庫：用於解析返回的網頁資訊

lxml庫：用於解析網頁返回結果

pymongo庫：用於實現python對mongodb的操作

對所需要的網頁進行請求並解析返回的資料

對於想要做乙個簡單的爬蟲而言，這一步其實很簡單，主要是通過requests庫來進行請求，然後對返回的資料進行乙個解析，解析之後通過對於元素的定位和選擇來獲取所需要的資料元素，進而獲取到資料的乙個過程。

如何使用python寫爬蟲程式

python編寫爬蟲的整體思路簡單清晰，下面來說一下具體的步驟先來看在解釋，乙個簡單的網路爬蟲示例 import requests from bs4 import beautifulsoup 58同城的二手市場主頁面 start url url host 定義乙個爬蟲函式來獲取二手市場頁面中的全...

python寫網路爬蟲

注本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式，用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...

python寫乙個簡單爬蟲程式

python寫乙個簡單爬蟲程式先看輸出結果 d 應用集合 python 1.py 名稱詭秘之主名稱超神機械師名稱九星毒奶名稱第一序列名稱明天下名稱爛柯棋緣名稱虧成首富從遊戲開始名稱我師兄實在太穩健了名稱輪迴樂園名稱當醫生開了外掛程式名稱學霸的黑科技系統名...

如何使用python寫爬蟲程式？

如何使用python寫爬蟲程式

python寫網路爬蟲

python寫乙個簡單爬蟲程式

相關推薦