二、**實現
三、結果
鵲橋(piebridge)版旨在為北大在校學生、校友及親人朋友提供乙個包容、和諧、自由的尋找伴侶的平台。
板塊中發布了許多交友貼(列**式),那麼把這些列表資訊爬取下來,儲存在mongodb中。
檢視元素,找到列表的特徵,所有的帖子資訊顯示在class="list-item-topic list-item"
中
通過beautifulsoup的findall方法,找到所有的list
然後遍歷list,分析單個列表的內容,我們需要抓取url
,id
,title
,author_name
,publish_time
,reply_num
,last_reply_name
,last_reply_time
.
分析頁面跳轉欄頁面,所有頁面標籤顯示在class="paging-button n"
中
使用者登入已在上一章實現,本章實現爬取鵲橋板塊的列表資訊
url =
''base_url =
''defmain()
:global url
# 連線mongodb資料庫
db = connectdb(
)# 建立表
collection = db[
'piebridge'
]# 獲取 登入session
session = get_session(
)while
true
:# 獲取頁面
html = get_html(session, url)
print
('已爬取頁面:'
+ url)
url = parse_html(html, collection)
if url is
none
:break
if __name__ ==
'__main__'
: main(
)
程式爬取結果,一共251頁
通過mongodb工具,檢視庫中的詳細資料
資料庫詳細資訊,一共5002條資料
下一章,爬取單個帖子中的詳細內容
BBS論壇(二十)
from exts import dbfrom datetime import datetime class bannermodel db.model tablename banner id db.column db.integer,primary key true,autoincrement tr...
搭建bbs論壇
1.安裝軟體包 root svr7 yum y install mariadb server mariadb php php mysql2.配置mysql root svr7 systemctl restart mariadb root svr7 systemctl enable mariadb r...
例項二》爬取論壇標題
爬取論壇中的標題 這部分的重點 2 用到了正規表示式,正規表示式不準確也是輸出不了想要的結果,建議輸出r.text後在正規表示式的 上確認自己的表示式沒有問題,再進行使用。3 beautifulsoup知識點太多,單開文章彙總使用方法 使用正規表示式實現抓取網頁的標題 import requests...