要抓取網頁資訊首先要獲取部落格主頁的html資訊,使用
http.get(options[, callback])方法獲取資訊,**如下:
其中url 為我的 部落格主頁,獲取主頁html後,需要對資訊進行挑選,在部落格主頁右鍵選擇檢視原始碼,可以找到所需資訊如下:
newcomments
" class="panel">
通過cheerio,我們需要把html document 傳進去。
這是首選:
var
cheerio
=require
('cheerio'
),$
=cheerio
.load(''
);
獲取關鍵資訊**如下:若匹配到則value為陣列形式,郵箱是第0個元素,若匹配不到則返回null,function filterchaper(html))
}) return coursedata
}
function printcoursedata(coursedata))
}var reg=/[a-za-z0-9]@[a-za-z0-9]\.[a-za-z0-9]/;
var value=reg.exec(item)
完整**如下
執行效果如下
nodejs簡易爬蟲
我的爬蟲程式是用nodejs寫的,因為最近在學這個東西,其中使用了express框架,以及cheerio和superagent兩個模組。cheerio模組是nodejs處理html內容的神器,例如var cheerio.load html 將頁面的html內容載入下來後,便可使用jquery語法進行...
nodejs 簡易爬蟲
用nodejs編寫爬蟲跟其他語言一樣,比較簡單,比較各個語言標準庫都差不多,主要就是抓取頁面,然後分析dom節點,獲取資料。requests 經典的請求庫,cherrio 像jquery一樣解析dom的庫。這裡用csdn舉例。var request require request var promi...
python nodejs爬蟲 nodejs爬蟲
生活中遇到了問題,想去成都買個房,那哪個區域價效比高肯定要考慮一番了,最粗暴直接的就是看租售比,遂打算去鏈家網爬上各個小區的賣房單價和租房單價比上一比,python寫爬蟲無疑是最流行的了,但最近在研究node,感覺寫個爬蟲強化一下node姿勢水平還是挺不錯的。開整。首先http請求工具和dom解析工...