參考 爬蟲6 正規表示式基礎知識

2022-04-08 17:53:08 字數 1213 閱讀 3164

正規表示式用來簡潔表達一組字串。

一行勝千言

如用'py+'表示'py' 'pyy' 'pyyy' 'pyyyy....'等字串

如果,以『py』開頭,後續存在不多於10個字元,後續字元不能是『p』或『y』,可以用『py[^py]』表示

正規表示式在文字處理中十分常用:

1、表達文字型別的特徵(病毒,入侵等)

2、同時查詢或替換一組字串

3、匹配字串的全部或部分(最常用)

正規表示式的使用:

編譯:將符合正規表示式語法的字串轉換成正規表示式特徵

語法:由字元和操作符構成

操作符說明例項.

表示單個字元

[ ]字符集,對單個字元給出取值範圍

[abc]表示a,b,c,[a-z]表示a到z單個字元

[^  ]

非字符集,對單個字元給出排除範圍

[^abc]表示非a 非b 非c的單個字元

*前乙個字元0次或無限次擴充套件

abc*表示ab\abc\abcc\abccc等

+前乙個字元1次或無限次擴充套件

abc+表示abc\abcc\abccc等

?前乙個字元0次或1次擴充套件

abc?表示ab\abc

|左右表示式任意乙個

abc|def表示abc\def

擴充套件前乙個字元m次

ab表示abbc

擴充套件前乙個字元m至n次

abc表示abc\abbc

^匹配字串開頭

^abc表示abc且在乙個字串的開頭

$匹配字串結尾

$abc表示abc且在乙個字串的結尾

()分組標記,內部只能使用|操作符

(abc)表示abc,(abc|def)表示abc\def

\d數字,等價於[0-9]

\w單詞字元,等價於[a-za-z0-9]

例子:匹配ip位址的正規表示式

\d+.\d+.\d+.\d+  或者 \d.\d.\d.\d

正規表示式基礎知識

我們先從簡單的開始。假設你要搜尋乙個包含字元 cat 的字串,搜尋用的正規表示式就是 cat 如果搜尋對大小寫不敏感,單詞 catalog catherine sophisticated 都可以匹配。也就是說 1.1 句點符號 假設你在玩英文拼字遊戲,想要找出三個字母的單詞,而且這些單詞必須以 t ...

正規表示式基礎知識

乙個正規表示式就是由普通字元 例如字元 a 到 z 以及特殊字元 稱為元字元 組成的文字模式。該模式描述在查詢文字主體時待匹配的乙個或多個字串。正規表示式作為乙個模板,將某個字元模式與所搜尋的字串進行匹配。如 jscript vbscript 匹配 t t 匹配乙個空白行。d d d d 驗證乙個i...

正規表示式基礎知識

正規表示式基礎知識 正規表示式是一種可以用於模式匹配和替換的強有力的工具,乙個正規表示式就是由普通的字元 例如字元 a 到 z 以及特殊字元 稱為元字元 組成的文字模式,它描述在查詢文字主體時待匹配的乙個或多個字串。正規表示式作為乙個模板,將某個字元模式與所搜尋的字串進行匹配。正規表示式在字元資料處...