——《鳥哥的私房菜》
正規表示法就是處理字串的方法,他是以行為單位來進行字串的處理行為;
正規表示法透過一些特殊符號的輔助,可以讓使用者輕易的達到『搜尋/刪除/取代』某特定字串的處理程式;
只要工具程式支援正規表示法,那麼該工具程式就可以用來作為正規表示法的字串處理之用;
正規表示法與萬用位元組是完全不一樣的東西!萬用位元組 (wildcard) 代表的是 bash 操作介面的乙個功能, 但正規表示法則是一種字串處理的表示方式!
grep 正規表示法裡面是很常見也很常用的乙個工具,他最重要的功能就是進行字串資料的比對,然後將符合使用者需求的字串列印出來。
grep 在資料中查尋乙個字串時,是以 "整行" 為單位來進行資料的擷取的!也就是說,假如乙個檔案內有 10 行,其中有兩行具有你所搜尋的字串,則將那兩行顯示在螢幕上,其他的就丟棄了!
基礎正規表示法字元彙整
re 字元
意義與範例
^word
意義:待搜尋的字串(word)在行首!
範例:搜尋行首為 # 開始的那一行,並列出行號
grep -n '^#' regular_express.txt
word$
意義:待搜尋的字串(word)在行尾!
範例:將行尾為 ! 的那一行列印出來,並列出行號
grep -n '!$' regular_express.txt
.意義:代表『一定有乙個任意位元組』的字元!
範例:搜尋的字串可以是 (eve) (eae) (eee) (e e), 但不能僅有 (ee) !亦即 e 與 e 中間『一定』僅有乙個位元組,而空白位元組也是位元組!
grep -n 'e.e' regular_express.txt
\意義:跳脫字元,將特殊符號的特殊意義去除!
範例:搜尋含有單引號 ' 的那一行!
grep -n \' regular_express.txt
*意義:重複零個到無窮多個的前乙個 re 字元
範例:找出含有 (es) (ess) (esss) 等等的字串,注意,因為 * 可以是 0 個,所以 es 也是符合帶搜尋字串。另外,因為 * 為重複『前乙個 re 字元』的符號, 因此,在 * 之前必須要緊接著乙個 re 字元喔!例如任意位元組則為 『.*』 !
grep -n 'ess*' regular_express.txt
[list]
意義:位元組集合的 re 字元,裡面列出想要擷取的位元組!
範例:搜尋含有 (gl) 或 (gd) 的那一行,需要特別留意的是,在 當中『謹代表乙個待搜尋的位元組』, 例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思!
grep -n 'g[ld]' regular_express.txt
[n1-n2]
意義:位元組集合的 re 字元,裡面列出想要擷取的位元組範圍!
範例:搜尋含有任意數字的那一行!需特別留意,在位元組集合 中的減號 - 是有特殊意義的,他代表兩個位元組之間的所有連續位元組!但這個連續與否與 ascii 編碼有關,因此,你的編碼需要配置正確(在 bash 當中,需要確定 lang 與 language 的變數是否正確!) 例如所有大寫位元組則為 [a-z]
grep -n '[a-z]' regular_express.txt
[^list]
意義:位元組集合的 re 字元,裡面列出不要的字串或範圍!
範例:搜尋的字串可以是 (oog) (ood) 但不能是 (oot) ,那個 ^ 在 內時,代表的意義是『反向選擇』的意思。 例如,我不要大寫位元組,則為 [^a-z]。但是,需要特別注意的是,如果以 grep -n [^a-z] regular_express.txt 來搜尋,卻發現該檔案內的所有行都被列出,為什麼?因為這個 [^a-z] 是『非大寫位元組』的意思, 因為每一行均有非大寫位元組,例如第一行的 "open source" 就有 p,e,n,o.... 等等的小寫字
grep -n 'oo[^t]' regular_express.txt
\意義:連續 n 到 m 個的『前乙個 re 字元』
意義:若為 \ 則是連續 n 個的前乙個 re 字元,
意義:若是 \ 則是連續 n 個以上的前乙個 re 字元! 範例:在 g 與 g 之間有 2 個到 3 個的 o 存在的字串,亦即 (goog)(gooog)
grep -n 'go\g' regular_express.txt注:因為 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字元 \ 來讓他失去特殊意義才行
再次強調:『正規表示法的特殊位元組』與一般在命令列輸入命令的『萬用位元組』並不相同, 例如,在萬用位元組當中的 * 代表的是『 0 ~ 無限多個位元組』的意思,但是在正規表示法當中, * 則是『重複 0 到無窮多個的前乙個 re 字元』的意思~使用的意義並不相同,不要搞混了!
舉例來說,不支援正規表示法的 ls 這個工具中,若我們使用 『ls -l * 』 代表的是任意檔名的檔案,而 『ls -l a* 』代表的是以 a 為開頭的任何檔名的檔案, 但在正規表示法中,我們要找到含有以 a 為開頭的檔案,則必須要這樣:(需搭配支援正規表示法的工具)
ls | grep -n '^a.*'
.* 就代表零個或多個任意位元組
另外,那個 ^ 符號,在位元組集合符號(括號)之內與之外是不同的! 在 內代表『反向選擇』,在 之外則代表定位在行首的意義!
例如:grep -n '^[^a-za-z]' 意義是 不要開頭是英文本母的行
另外,為了要避免編碼所造成的英文與數字的擷取問題,因此有些特殊的符號我們得要了解一下的! 這些符號主要有底下這些意義:
特殊符號
代表意義
[:alnum:]
代表英文大小寫位元組及數字,亦即 0-9, a-z, a-z
[:alpha:]
代表任何英文大小寫位元組,亦即 a-z, a-z
[:blank:]
代表空白鍵與 [tab] 按鍵兩者
[:cntrl:]
代表鍵盤上面的控制按鍵,亦即包括 cr, lf, tab, del.. 等等
[:digit:]
代表數字而已,亦即 0-9
[:graph:]
除了空白位元組 (空白鍵與 [tab] 按鍵) 外的其他所有按鍵
[:lower:]
代表小寫位元組,亦即 a-z
[:print:]
代表任何可以被列印出來的位元組
[:punct:]
代表標點符號 (punctuation symbol),亦即:" ' ? ! ; : # $...
[:upper:]
代表大寫位元組,亦即 a-z
[:space:]
任何會產生空白的位元組,包括空白鍵, [tab], cr 等等
[:xdigit:]
代表 16 進製的數字型別,因此包括: 0-9, a-f, a-f 的數字與位元組
正則表示法Regular Express
裡面不管有幾個字元,都是只代表選擇其中任意乙個 t ae st 代表 test 或者 tast 代表反向選擇 grep n g oole filename 選擇oo前面不是g的字段 位於re的首部 代表只匹配為與行首的字段 the 則you are the 該行不會被選中grep n lower f...
shell基礎(2) 正則
shell正規表示式分為兩種 基礎正規表示式 bre basic regular express 擴充套件正規表示式 ere extend regular express 擴充套件的表示式有 和 匹配以什麼什麼開頭 和一起使用表示排除 匹配以什麼結尾的 匹配除了 n 之外的任意字元 匹配多個 轉義 ...
Linux基礎之正規表示法
1 正規表示法 處理字串的方法 a grep acinv color auto 搜尋字串 filename a 將binary檔案以text檔案的方式搜尋資料 i 忽略大小寫 n 輸出行號 color auto 可以將找到的關鍵字部分加上顏色的顯示 word 待搜尋的字串在行首 word 待搜尋的字...