爬一下百度百科(莫煩python)

2021-10-08 16:41:36 字數 1129 閱讀 6214

from bs4 import beautifulsoup#爬蟲模組

from urllib.request import urlopen#內部模組開啟**用的

import re

import random#隨機爬到另乙個**

base_url =

""his =

["/item/%e5%8b%92%e5%b8%83%e6%9c%97%c2%b7%e8%a9%b9%e5%a7%86%e6%96%af/1989503"]`

``

3.繼續爬

url = base_url + his[-1

]#最後乙個**

html = urlopen(url)

.read(

).decode(

'utf-8'

)#繼續讀

soup = beautifulsoup(html, features=

'lxml'

)print

(soup.find(

'h1'

).get_text(),

' url: '

, his[-1

])#返回第乙個h1也就是標題以及上乙個url

#如果sub-urls裡有東西的話就隨機選取乙個爬進去

else

: his.pop(

)#沒有的話就返回上一層的his,pop的目的移除乙個元素預設返回最後乙個元素

print

(his)

5.整體來一次

python3爬取百度百科

在每個頁面裡只爬 h1 標題和下面的一段簡介 準備工作 資料庫需要三個字段,id,標題,內容 資料庫一定要在建立的時候加入 character set utf8 不然會引發好多錯誤 開始爬!先找到當前頁面的所有內鏈 找規律 是 item 開頭的,所以利用正規表示式刷刷刷,之後利用beatuiful很...

java爬取百度百科詞條

一 parsehtml部分 此部分用於對html中的標籤進行分析,提取出相應的可以內容 url和文字內容 public class parsehtml public void parse content document document,listcontents 二 用於解析url所獲取的html...

百度百科爬蟲爬人物資訊

部分 適應性不高,需進一步修改。並未設定自動化爬蟲,只是對欄位進行分類處理。from bs4 import beautifulsoup import pandas as pd import requests import json import time import urllib import r...