爬蟲實踐1 獲取mooc主頁課程

1、首先訪問中國mooc的主頁，是這個樣子

2、開啟開發者模式，圖中紅色部分就是想要爬取的一級分類。

在「國家精品」右鍵選擇「檢查」，找到所在標籤，發現是乙個span標籤，並且class=『f-thide』

3、在xpath外掛程式窗中輸入//span[@class=『f-thide』]，得到正確結果，因此這是正確的xpath路徑。

4、確定**，url=

匯入模組urllib.request，獲取url的html

import urllib.request as ur
html = ur.urlopen(url)
.read(
).decode(
)##如果decode()，則讀出的內容是2進製，在ascii內的字母符號可以識別，ascii之外的漢字等會逐個位元組讀取。decode()預設以utf-8進行讀取。

爬蟲專案實戰1 爬取天善課程

參考自課程專案內容爬取天善智慧型學院課程的名稱講師專案工具 re，requests 專案 time 2020 4 1 20 32 author w file 爬取天善課程.py software pycharm import re import requests 利用for迴圈實現相似網頁的...

Python爬蟲實踐，獲取百度貼吧內容

貼吧位址 python版本 3.6 瀏覽器版本 chrome 由於是第乙個實驗性質爬蟲，我們要做的不多，我們需要做的就是 1 從網上爬下特定頁碼的網頁 2 對於爬下的頁面內容進行簡單的篩選分析 3 找到每一篇帖子的標題發帖人日期樓層以及跳轉鏈結 4 將結果儲存到文字。其實這些都是中文字元，...

Python爬蟲實踐六正規表示式 1

正規表示式是對字串操作的一種邏輯公式就是用事先定義好的一些特定字元及這些特定字元的組合，組成乙個規則字串這個規則字串用來表達對字串的一種過濾邏輯。正規表示式的大致匹配過程是依次拿出表示式和文字中的字元比較，如果每乙個字元都能匹配，則匹配成功一旦有匹配不成功的字元則匹配失敗。語法規則...

爬蟲實踐1 獲取mooc主頁課程

爬蟲專案實戰1 爬取天善課程

Python爬蟲實踐，獲取百度貼吧內容

Python爬蟲實踐 六 正規表示式 1

相關推薦

Python爬蟲實踐六正規表示式 1