在很多技術領域(如:自然語言處理,資料儲存等),正規表示式可以很方便的提取我們想要的資訊,所以正規表示式是乙個很重要的知識點!
一、概念
正規表示式(regular expression)是用於描述一組字串特徵的模式,用來匹配特定的字串。通過特殊字元+普通字元來進行模式描述,從而達到文字匹配目的工具。
正規表示式目前被整合到了各種文字編輯器/文字處理工具當中
二、應用場景
(1)驗證:表單提交時,進行使用者名稱密碼的驗證。
(2)查詢:從大量資訊中快速提取指定內容,在一批url中,查詢指定url。
(3)替換:將指定格式的文字進行正則匹配查詢,找到之後進行特定替換。
三、基本要素
(1)字元類
(2)數量限定符
(3)位置限定符
(4)特殊符號
注意:正規表示式基本是與語言無關的,我們可以結合語言/工具與正規表示式進行文字處理,在後面的部落格中,我將使用grep來進行驗證。(grep是一款linux下按行匹配文字的工具,如下,使我們常使用的兩個選項)
-e:使用擴充套件正則匹配
--color:將匹配得到的內容進行語法高亮
1.字元類
舉例如下:
例1:注意:1.grep採用的貪心匹配,它會匹配當前行中的所有匹配內容
2.echo $?表示是否匹配成功(如果成功返回值為0,不成功返回值為1)
例2:例3:
例4:例5:
2.數量限定符
舉例如下:
例1:例2:
由此,我們可以看出,「前面的單元」預設是指?或+前面的字元
例3:例4:
例5:例6:
例7:3.位置限定符
舉例如下:
例1:例2:
例3:例4:
例5:例6:
4.特殊符號
舉例如下:
假如我們去掉-e選項,會有什麼現象呢?
此時,不難發現,去掉-e選項之後沒有進行正常的正則匹配,這種現象需要我們引入如下的兩個概念!
5.基本正規表示式&擴充套件正規表示式
區別:正規表示式的擴充套件正則(extended規範)和基本正則(basic規範)下,有些字元應該解釋為普通字元,要表示上述特殊含義則需要加「\」轉義字元。反之,在擴充套件規範下,應被理解為特殊含義,要取其字面值,也要對其進行「\」轉義。
因此,grep工具帶上-e選項,表示使用擴充套件正則來進行匹配,若沒有該選項,則表示使用基準正則來進行匹配。
對於上述的問題,我們舉例如下:
例1:例2:當目標字串當中本身就包含了字元,要想進行正則匹配,應該這樣做:
例3:5.其他普通字符集及其替換
舉個例子:
綜上,正規表示式有以下三個分類:
(1)基本正規表示式:basic即bpes
(2)擴充套件正規表示式:extended即eres
(3)perl的正規表示式:pres
因此,當grep指令不跟任何引數時,表示要使用bres,後面跟「-e」表示使用eres,後面跟「-p」引數,表示使用pres
四、貪婪模式與非貪婪模式
1.貪婪模式:正規表示式匹配時,會盡量多的匹配符合條件的內容
舉例如下:
舉例如下:
五、零寬斷言
1.所謂斷言,是用來宣告乙個應該為真的事實。在正規表示式中,只有當斷言為真時才會繼續進行匹配。
2.零寬斷言:像用於查詢某些內容之前或者之後的東西,其中一些特殊字元如「\b、^、$」等用於指定乙個位置,這個位置應滿足一定的條件。
3.分類:
(1)零寬度正**先行斷言(?=exp)
它斷言自身出現的位置之後能匹配的表示式exp。如:\b\w+(?=ing\b),表示匹配以ing結尾的單詞的前面的部分(除ing以外的部分)。當我們要查詢「i'm singing while you're dancing.」時,它會匹配sing和danc
舉例如下:
(2)零寬度正回顧後發斷言(?>=exp)
它斷言自身出現的位置的前面能匹配的表示式exp。如:(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除er以外的部分),例如:在查詢「reading a book」時,它匹配ading
舉例如下:
六、簡單練習
1.手機號碼
2.非零的正整數
3.非零開頭的最多帶兩位小數的數字
4.由數字和26位字母組成的字串
5.qq號,從10000開始
6.ip位址
\d+\.\d+\.\d+\.\d+
7.判斷賬號是否合法
^[a-za-z0-9][a-za-z0-9_]$
8.日期格式
^\d-\d-\d
正規表示式的學習就到這裡結束啦,如果有小夥伴沒有看明白的,可以上網查詢正則的更多知識點!
正規表示式 正規表示式 總結
非負整數 d 正整數 0 9 1 9 0 9 非正整數 d 0 負整數 0 9 1 9 0 9 整數 d 非負浮點數 d d 正浮點數 0 9 0 9 1 9 0 9 0 9 1 9 0 9 0 9 0 9 1 9 0 9 非正浮點數 d d 0 0 負浮點數 正浮點數正則式 英文本串 a za z...
正規表示式 表示式
網域名稱 a za z0 9 a za z0 9 a za z0 9 a za z0 9 interneturl a za z s 或 http w w w 手機號碼 13 0 9 14 5 7 15 0 1 2 3 5 6 7 8 9 18 0 1 2 3 5 6 7 8 9 d 號碼 x x x...
Linux正規表示式 編寫正規表示式
為了所有實用化的用途,你可以通過使用程式產生正確的結果。然而,並不意味著程式總是如你所願的那樣正確地工作。多數情況下,如果程式不能產生想要的輸出,可以斷定真正的問題 排除輸入或語法錯誤 在於如何描述想要的東西。換句話說,應該考慮糾正問題的地方是描述想要的結果的表示式。表示式不完整或者公式表示得不正確...