mark一次nodejs爬蟲入門經歷
需要用到的依賴
cheerio
superagent
npm init 初始化乙個專案
新建乙個index.js
引入上述的依賴
const superagent =
require
('superagent');
const cheerio =
require
('cheerio'
);
引入fs檔案管理
const fs =
require
('fs'
);
爬目標** 例如微博熱搜
const hot =`;
使用superagent請求微博熱搜,會返回兩個引數 第乙個為error 請求失敗的錯誤, 第二個是請求成功後網頁的資料
在請求失敗丟擲錯誤
superagent.
get(hot,
(error, result)
=>
}
請求成則使用cheerio處理dom元素
const $ = cheerio.
load
(result.text)
;const list =
;// 儲存資料
可以看出來都是比較規則的資料 用jquery的each迴圈可以非常方便的取出資料來
$
('#pl_top_realtimehot table tbody tr').
each
(function
(index))}
})
最後fs寫入資料
fs.
writefilesync(`
$/public/hotsearch.json`
,json
.stringify
(list)
,"utf-8"
)
…en nodejs簡易爬蟲
我的爬蟲程式是用nodejs寫的,因為最近在學這個東西,其中使用了express框架,以及cheerio和superagent兩個模組。cheerio模組是nodejs處理html內容的神器,例如var cheerio.load html 將頁面的html內容載入下來後,便可使用jquery語法進行...
網路爬蟲 Nodejs
要抓取網頁資訊首先要獲取部落格主頁的html資訊,使用 http.get options callback 方法獲取資訊,如下 其中url 為我的 部落格主頁,獲取主頁html後,需要對資訊進行挑選,在部落格主頁右鍵選擇檢視原始碼,可以找到所需資訊如下 newcomments class panel...
nodejs 簡易爬蟲
用nodejs編寫爬蟲跟其他語言一樣,比較簡單,比較各個語言標準庫都差不多,主要就是抓取頁面,然後分析dom節點,獲取資料。requests 經典的請求庫,cherrio 像jquery一樣解析dom的庫。這裡用csdn舉例。var request require request var promi...