from bs4 import beautifulsoup#爬蟲模組
from urllib.request import urlopen#內部模組開啟**用的
import re
import random#隨機爬到另乙個**
base_url =
""his =
["/item/%e5%8b%92%e5%b8%83%e6%9c%97%c2%b7%e8%a9%b9%e5%a7%86%e6%96%af/1989503"]`
``
3.繼續爬
url = base_url + his[-1
]#最後乙個**
html = urlopen(url)
.read(
).decode(
'utf-8'
)#繼續讀
soup = beautifulsoup(html, features=
'lxml'
)print
(soup.find(
'h1'
).get_text(),
' url: '
, his[-1
])#返回第乙個h1也就是標題以及上乙個url
#如果sub-urls裡有東西的話就隨機選取乙個爬進去
else
: his.pop(
)#沒有的話就返回上一層的his,pop的目的移除乙個元素預設返回最後乙個元素
print
(his)
5.整體來一次
python3爬取百度百科
在每個頁面裡只爬 h1 標題和下面的一段簡介 準備工作 資料庫需要三個字段,id,標題,內容 資料庫一定要在建立的時候加入 character set utf8 不然會引發好多錯誤 開始爬!先找到當前頁面的所有內鏈 找規律 是 item 開頭的,所以利用正規表示式刷刷刷,之後利用beatuiful很...
java爬取百度百科詞條
一 parsehtml部分 此部分用於對html中的標籤進行分析,提取出相應的可以內容 url和文字內容 public class parsehtml public void parse content document document,listcontents 二 用於解析url所獲取的html...
百度百科爬蟲爬人物資訊
部分 適應性不高,需進一步修改。並未設定自動化爬蟲,只是對欄位進行分類處理。from bs4 import beautifulsoup import pandas as pd import requests import json import time import urllib import r...