福克斯新聞爬蟲基礎分析(12)

2021-10-10 08:46:41 字數 1014 閱讀 5404

list_67.shtml

list_66.shtml

……list_1.shtml

一共68頁(可以通過re去匹配總頁數)

list_(68-(n-1)).shtml

**第1頁

第2頁list_(68-(n-1)).shtml

list_(68-(2-1)).shtml

list_67.shtml

第67頁

list_(68-(67-1)).shtml

list_(68-66).shtml

list_2.shtml

第68頁

list_(68-(68-1)).shtml

list_(68-67).shtml

list_1.shtml

//*[@id=「menu-list」]/li/a//@href

每頁15條新聞

/broadcast/202011/620143.shtml

/broadcast/202010/619795.shtml

/broadcast/202010/619291.shtml

……/broadcast/202008/616734.shtml

/broadcast/202008/616244.shtml

/broadcast/202008/615889.shtml

一般是2段文字

短路徑//[@id=「article」]/p[2]/text()|

//[@id=「article」]/p[4]/text()

完整路徑

/html/body/div[5]/div[2]/div[3]/div[4]/div[1]/div/p[2]|

/html/body/div[5]/div[2]/div[3]/div[4]/div[1]/div/p[4]

**構建方式比較簡單,聽力文字**最後加 _2 即可

//[@id=「article」]/p[2]/text()|

//[@id=「article」]/p[3]/text()

Python爬蟲基礎 1

url uniform resource locator 統一資源定位符。採用url可以用一種統一的格式來描述各種資訊資源,包括檔案 伺服器的位址和目錄等。url的一般格式為 帶方括號的為可選項 protocol hostname port path parameters query fragmen...

Python爬蟲基礎1

python版本 3.6 編譯器 pycharm 系統 win 10 1 file new project create 2 右擊建立的專案 new python file 3 開始輸入 import urllib.request response urllib.request urlopen pr...

Python爬蟲 1 基礎

爬蟲 spider 是用指令碼代替瀏覽器請求伺服器獲取伺服器資源的程式。python爬蟲優勢,支援模組很多,有scrapy非常強大的爬蟲框架 1.通用爬蟲 2 功能 訪問網頁 抓取資料 資料儲存 資料處理 提供檢索服務 3 爬取流程 給定一些起始的url,放入待爬取佇列 從佇列中獲取url物件,開始...