上課課件整理複習 第六章 網頁資料的採集 2

2021-10-11 21:32:18 字數 438 閱讀 9745

所有的標題(所有頁面上,不論是詞條頁面、編輯歷史頁面還是其他頁面)都是在h1 → span標籤裡,而且頁面上只有乙個h1 標籤。

所有的正文文字都在div#bodycontent

標籤裡。這個規則對所有頁面都適用,除了檔案頁面,頁面不包含內容文字(content text)的部分內容。

編輯鏈結只出現在詞條頁面上。如果有編輯鏈結,都位於li#ca-edit 標籤的li#caedit→ span → a 裡面。

from urllib import request

from bs4 import beautifulsoup

import re

pages = set(

)def getlinks

第六章複習

一.迴圈語句 while do while.for 1.while 迴圈控制表示式 括號內容為真時執行,假時退出。語句序列 迴圈體 2.do while 迴圈控制表示式 真實執行假時退出。注意 該迴圈體內語句至少執行一次。3.for 初始化表示式 迴圈控制表示式 增值表示式 使用的一般原則 迴圈次數...

c 複習第六章 繼承

原因 通過繼承機制可以利用已有的資料型別來定義新的資料型別,新的類不僅擁有舊類的成員,還擁有新定義的成員。乙個b類繼承於a類,或稱從類a派生類b。這樣的話,類a成為基類 父類 類b成為派生類 子類 派生類中的成員,包含兩大部分 一類是從基類繼承過來的,一類是自己增加的成員。從基類繼承過過來的表現其共...

網頁製作 第六章測試

第1部分 總題數 5 單選題 2分 下面選項中,可以設定網頁中某個標籤的右外邊距為10畫素。a.margin 10px 0 0 0 b.padding right 10px c.margin 0 10px d.margin 0 10 0 0px 本題總得分2分 單選題 2分 閱讀下面html 如果期...