以爬慕課網hadoop高階課程為例,用node寫乙個簡單的爬蟲:
先抓取這個**的原始碼:
然後分析這個頁面的dom,如圖:
每大章節都被乙個chapter包圍,抓取下來就是乙個陣列,對每個item,這張的大標題在strong裡面,每章的小章節在video標籤裡,然後小標題就是j-media-item的text,id就用video的編號,字串擷取下來。
當然爬下來的結果格式有點雜亂無章:
可以在加點**格式化一下,也可以用io寫進磁碟檔案。
node的簡單爬蟲
最近在學node,這裡簡單記錄一下。首先是在linux的環境下,關於node的安裝教程 我看的教程裡面還用來express框架 鍵入 npm install express registry 來安裝 這樣基本的環境就弄好了,裝好以後來建立專案,過程如下 1.隨便建乙個資料夾,比如說是lesson3 ...
node 簡單的爬蟲案例
cherrio模組 安裝cnpm install cherrio使用方法const cheerio require cheerio const cheerio.load h2.title text hello there h2 addclass welcome html request模組var r...
node爬蟲實踐
爬蟲的原理很好理解,就是在服務端請求另乙個伺服器的資源,前端有跨域問題,而服務端沒有,這是天然優勢。掌握node的前端可以為所欲為了 1 首先,根據請求資源的協議選擇合適的模組,如果是https協議,就用https的方法取請求,之前沒有注意到這個問題。var https require https ...