list_67.shtml
list_66.shtml
……list_1.shtml
一共68頁(可以通過re去匹配總頁數)
list_(68-(n-1)).shtml
**第1頁
第2頁list_(68-(n-1)).shtml
list_(68-(2-1)).shtml
list_67.shtml
第67頁
list_(68-(67-1)).shtml
list_(68-66).shtml
list_2.shtml
第68頁
list_(68-(68-1)).shtml
list_(68-67).shtml
list_1.shtml
//*[@id=「menu-list」]/li/a//@href
每頁15條新聞
/broadcast/202011/620143.shtml
/broadcast/202010/619795.shtml
/broadcast/202010/619291.shtml
……/broadcast/202008/616734.shtml
/broadcast/202008/616244.shtml
/broadcast/202008/615889.shtml
一般是2段文字
短路徑//[@id=「article」]/p[2]/text()|
//[@id=「article」]/p[4]/text()
完整路徑
/html/body/div[5]/div[2]/div[3]/div[4]/div[1]/div/p[2]|
/html/body/div[5]/div[2]/div[3]/div[4]/div[1]/div/p[4]
**構建方式比較簡單,聽力文字**最後加 _2 即可
//[@id=「article」]/p[2]/text()|
//[@id=「article」]/p[3]/text()
Python爬蟲基礎 1
url uniform resource locator 統一資源定位符。採用url可以用一種統一的格式來描述各種資訊資源,包括檔案 伺服器的位址和目錄等。url的一般格式為 帶方括號的為可選項 protocol hostname port path parameters query fragmen...
Python爬蟲基礎1
python版本 3.6 編譯器 pycharm 系統 win 10 1 file new project create 2 右擊建立的專案 new python file 3 開始輸入 import urllib.request response urllib.request urlopen pr...
Python爬蟲 1 基礎
爬蟲 spider 是用指令碼代替瀏覽器請求伺服器獲取伺服器資源的程式。python爬蟲優勢,支援模組很多,有scrapy非常強大的爬蟲框架 1.通用爬蟲 2 功能 訪問網頁 抓取資料 資料儲存 資料處理 提供檢索服務 3 爬取流程 給定一些起始的url,放入待爬取佇列 從佇列中獲取url物件,開始...