Shell 基礎正則表示法及grep用法

——《鳥哥的私房菜》

正規表示法就是處理字串的方法，他是以行為單位來進行字串的處理行為；

正規表示法透過一些特殊符號的輔助，可以讓使用者輕易的達到『搜尋/刪除/取代』某特定字串的處理程式；

只要工具程式支援正規表示法，那麼該工具程式就可以用來作為正規表示法的字串處理之用；

正規表示法與萬用位元組是完全不一樣的東西！萬用位元組 (wildcard) 代表的是 bash 操作介面的乙個功能，但正規表示法則是一種字串處理的表示方式！

grep 正規表示法裡面是很常見也很常用的乙個工具，他最重要的功能就是進行字串資料的比對，然後將符合使用者需求的字串列印出來。

grep 在資料中查尋乙個字串時，是以 "整行" 為單位來進行資料的擷取的！也就是說，假如乙個檔案內有 10 行，其中有兩行具有你所搜尋的字串，則將那兩行顯示在螢幕上，其他的就丟棄了！

基礎正規表示法字元彙整

re 字元

意義與範例

^word

意義：待搜尋的字串(word)在行首！

範例：搜尋行首為 # 開始的那一行，並列出行號

grep -n '^#' regular_express.txt

word$

意義：待搜尋的字串(word)在行尾！

範例：將行尾為 ! 的那一行列印出來，並列出行號

grep -n '!$' regular_express.txt

.意義：代表『一定有乙個任意位元組』的字元！

範例：搜尋的字串可以是 (eve) (eae) (eee) (e e)，但不能僅有 (ee) ！亦即 e 與 e 中間『一定』僅有乙個位元組，而空白位元組也是位元組！

grep -n 'e.e' regular_express.txt

\意義：跳脫字元，將特殊符號的特殊意義去除！

範例：搜尋含有單引號 ' 的那一行！

grep -n \' regular_express.txt

*意義：重複零個到無窮多個的前乙個 re 字元

範例：找出含有 (es) (ess) (esss) 等等的字串，注意，因為 * 可以是 0 個，所以 es 也是符合帶搜尋字串。另外，因為 * 為重複『前乙個 re 字元』的符號，因此，在 * 之前必須要緊接著乙個 re 字元喔！例如任意位元組則為『.*』！

grep -n 'ess*' regular_express.txt

[list]

意義：位元組集合的 re 字元，裡面列出想要擷取的位元組！

範例：搜尋含有 (gl) 或 (gd) 的那一行，需要特別留意的是，在當中『謹代表乙個待搜尋的位元組』，例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！

grep -n 'g[ld]' regular_express.txt

[n1-n2]

意義：位元組集合的 re 字元，裡面列出想要擷取的位元組範圍！

範例：搜尋含有任意數字的那一行！需特別留意，在位元組集合中的減號 - 是有特殊意義的，他代表兩個位元組之間的所有連續位元組！但這個連續與否與 ascii 編碼有關，因此，你的編碼需要配置正確(在 bash 當中，需要確定 lang 與 language 的變數是否正確！) 例如所有大寫位元組則為 [a-z]

grep -n '[a-z]' regular_express.txt

[^list]

意義：位元組集合的 re 字元，裡面列出不要的字串或範圍！

範例：搜尋的字串可以是 (oog) (ood) 但不能是 (oot) ，那個 ^ 在內時，代表的意義是『反向選擇』的意思。例如，我不要大寫位元組，則為 [^a-z]。但是，需要特別注意的是，如果以 grep -n [^a-z] regular_express.txt 來搜尋，卻發現該檔案內的所有行都被列出，為什麼？因為這個 [^a-z] 是『非大寫位元組』的意思，因為每一行均有非大寫位元組，例如第一行的 "open source" 就有 p,e,n,o.... 等等的小寫字

grep -n 'oo[^t]' regular_express.txt

\意義：連續 n 到 m 個的『前乙個 re 字元』

意義：若為 \ 則是連續 n 個的前乙個 re 字元，

意義：若是 \ 則是連續 n 個以上的前乙個 re 字元！範例：在 g 與 g 之間有 2 個到 3 個的 o 存在的字串，亦即 (goog)(gooog)

grep -n 'go\g' regular_express.txt

注：因為的符號在 shell 是有特殊意義的，因此，我們必須要使用跳脫字元 \ 來讓他失去特殊意義才行

再次強調：『正規表示法的特殊位元組』與一般在命令列輸入命令的『萬用位元組』並不相同，例如，在萬用位元組當中的 * 代表的是『 0 ~ 無限多個位元組』的意思，但是在正規表示法當中， * 則是『重複 0 到無窮多個的前乙個 re 字元』的意思～使用的意義並不相同，不要搞混了！

舉例來說，不支援正規表示法的 ls 這個工具中，若我們使用『ls -l * 』代表的是任意檔名的檔案，而『ls -l a* 』代表的是以 a 為開頭的任何檔名的檔案，但在正規表示法中，我們要找到含有以 a 為開頭的檔案，則必須要這樣：(需搭配支援正規表示法的工具)

ls | grep -n '^a.*'

.* 就代表零個或多個任意位元組

另外，那個 ^ 符號，在位元組集合符號(括號)之內與之外是不同的！在內代表『反向選擇』，在之外則代表定位在行首的意義！

例如：grep -n '^[^a-za-z]' 意義是不要開頭是英文本母的行

另外，為了要避免編碼所造成的英文與數字的擷取問題，因此有些特殊的符號我們得要了解一下的！這些符號主要有底下這些意義：

特殊符號

代表意義

[:alnum:]

代表英文大小寫位元組及數字，亦即 0-9, a-z, a-z

[:alpha:]

代表任何英文大小寫位元組，亦即 a-z, a-z

[:blank:]

代表空白鍵與 [tab] 按鍵兩者

[:cntrl:]

代表鍵盤上面的控制按鍵，亦即包括 cr, lf, tab, del.. 等等

[:digit:]

代表數字而已，亦即 0-9

[:graph:]

除了空白位元組 (空白鍵與 [tab] 按鍵) 外的其他所有按鍵

[:lower:]

代表小寫位元組，亦即 a-z

[:print:]

代表任何可以被列印出來的位元組

[:punct:]

代表標點符號 (punctuation symbol)，亦即：" ' ? ! ; : # $...

[:upper:]

代表大寫位元組，亦即 a-z

[:space:]

任何會產生空白的位元組，包括空白鍵, [tab], cr 等等

[:xdigit:]

代表 16 進製的數字型別，因此包括： 0-9, a-f, a-f 的數字與位元組

Shell 基礎正則表示法及grep用法

正則表示法Regular Express

shell基礎（2）正則

Linux基礎之正規表示法

Shell 基礎正則表示法及grep用法

正則表示法Regular Express

shell基礎（2） 正則

Linux基礎之正規表示法

相關推薦

shell基礎（2）正則