簡易文字爬蟲

2021-07-08 10:38:27 字數 731 閱讀 8118

正規表示式

1、使用re.findall(所有符合條件的)一般查詢列表結果就是所獲得值

re.search(一條符合記錄的)  通過match物件內的group編號或命名,獲得對應的值

title = re.research('(.*?)',html,re.s).group(1)      能包括換行符

使用sub(替換)實現換頁功能

2、常用符號

.   :匹配任意字元,換行符\n除外

*   :匹配前乙個字元0個或無限多個

?   :匹配前乙個字元0次或1次

.*   :貪心演算法,盡可能長的匹配

.*?   :非貪心演算法,盡可能短的匹配

()   :括號的資料作為資料返回

nodejs簡易爬蟲

我的爬蟲程式是用nodejs寫的,因為最近在學這個東西,其中使用了express框架,以及cheerio和superagent兩個模組。cheerio模組是nodejs處理html內容的神器,例如var cheerio.load html 將頁面的html內容載入下來後,便可使用jquery語法進行...

nodejs 簡易爬蟲

用nodejs編寫爬蟲跟其他語言一樣,比較簡單,比較各個語言標準庫都差不多,主要就是抓取頁面,然後分析dom節點,獲取資料。requests 經典的請求庫,cherrio 像jquery一樣解析dom的庫。這裡用csdn舉例。var request require request var promi...

Python簡易爬蟲

服務端 from flask import flask,request import os defshow if os.path.exists students.txt st st st fobj open students.txt rt encoding utf 8 while true 讀取一行...