1、首先訪問中國mooc的主頁,是這個樣子
2、開啟開發者模式,圖中紅色部分就是想要爬取的一級分類。
在「國家精品」右鍵選擇「檢查」,找到所在標籤,發現是乙個span標籤,並且class=『f-thide』
3、在xpath外掛程式窗中輸入//span[@class=『f-thide』],得到正確結果,因此這是正確的xpath路徑。
4、確定**,url=
匯入模組urllib.request,獲取url的html
import urllib.request as ur
html = ur.urlopen(url)
.read(
).decode(
)##如果decode(),則讀出的內容是2進製,在ascii內的字母符號可以識別,ascii之外的漢字等會逐個位元組讀取。decode()預設以utf-8進行讀取。
爬蟲專案實戰1 爬取天善課程
參考自課程 專案內容 爬取天善智慧型學院課程的名稱 講師 專案工具 re,requests 專案 time 2020 4 1 20 32 author w file 爬取天善課程.py software pycharm import re import requests 利用for迴圈實現相似網頁的...
Python爬蟲實踐,獲取百度貼吧內容
貼吧位址 python版本 3.6 瀏覽器版本 chrome 由於是第乙個實驗性質爬蟲,我們要做的不多,我們需要做的就是 1 從網上爬下特定頁碼的網頁 2 對於爬下的頁面內容進行簡單的篩選分析 3 找到每一篇帖子的 標題 發帖人 日期 樓層 以及跳轉鏈結 4 將結果儲存到文字。其實這些都是中文字元,...
Python爬蟲實踐 六 正規表示式 1
正規表示式是對字串操作的一種 邏輯公式 就是用事先定義好的一些特定字元 及這些特定字元的組合,組成乙個 規則字串 這個 規則字串 用來表達對字串的一種過濾邏輯。正規表示式的大致匹配過程是 依次拿出表示式和文字中的字元比較,如果每乙個字元都能匹配,則匹配成功 一旦有匹配不成功的字元則匹配失敗。語法規則...