Shell 基礎正則表示法及grep用法

2022-08-20 04:45:09 字數 3529 閱讀 4067

——《鳥哥的私房菜》

正規表示法就是處理字串的方法,他是以行為單位來進行字串的處理行為;

正規表示法透過一些特殊符號的輔助,可以讓使用者輕易的達到『搜尋/刪除/取代』某特定字串的處理程式;

只要工具程式支援正規表示法,那麼該工具程式就可以用來作為正規表示法的字串處理之用;

正規表示法與萬用位元組是完全不一樣的東西!萬用位元組 (wildcard) 代表的是 bash 操作介面的乙個功能, 但正規表示法則是一種字串處理的表示方式!

grep 正規表示法裡面是很常見也很常用的乙個工具,他最重要的功能就是進行字串資料的比對,然後將符合使用者需求的字串列印出來。

grep 在資料中查尋乙個字串時,是以 "整行" 為單位來進行資料的擷取的!也就是說,假如乙個檔案內有 10 行,其中有兩行具有你所搜尋的字串,則將那兩行顯示在螢幕上,其他的就丟棄了!

基礎正規表示法字元彙整

re 字元

意義與範例

^word

意義:待搜尋的字串(word)在行首!

範例:搜尋行首為 # 開始的那一行,並列出行號

grep -n '^#' regular_express.txt

word$

意義:待搜尋的字串(word)在行尾!

範例:將行尾為 ! 的那一行列印出來,並列出行號

grep -n '!$' regular_express.txt

.意義:代表『一定有乙個任意位元組』的字元!

範例:搜尋的字串可以是 (eve) (eae) (eee) (e e), 但不能僅有 (ee) !亦即 e 與 e 中間『一定』僅有乙個位元組,而空白位元組也是位元組!

grep -n 'e.e' regular_express.txt

\意義:跳脫字元,將特殊符號的特殊意義去除!

範例:搜尋含有單引號 ' 的那一行!

grep -n \' regular_express.txt

*意義:重複零個到無窮多個的前乙個 re 字元

範例:找出含有 (es) (ess) (esss) 等等的字串,注意,因為 * 可以是 0 個,所以 es 也是符合帶搜尋字串。另外,因為 * 為重複『前乙個 re 字元』的符號, 因此,在 * 之前必須要緊接著乙個 re 字元喔!例如任意位元組則為 『.*』 !

grep -n 'ess*' regular_express.txt

[list]

意義:位元組集合的 re 字元,裡面列出想要擷取的位元組!

範例:搜尋含有 (gl) 或 (gd) 的那一行,需要特別留意的是,在 當中『謹代表乙個待搜尋的位元組』, 例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思!

grep -n 'g[ld]' regular_express.txt

[n1-n2]

意義:位元組集合的 re 字元,裡面列出想要擷取的位元組範圍!

範例:搜尋含有任意數字的那一行!需特別留意,在位元組集合 中的減號 - 是有特殊意義的,他代表兩個位元組之間的所有連續位元組!但這個連續與否與 ascii 編碼有關,因此,你的編碼需要配置正確(在 bash 當中,需要確定 lang 與 language 的變數是否正確!) 例如所有大寫位元組則為 [a-z]

grep -n '[a-z]' regular_express.txt

[^list]

意義:位元組集合的 re 字元,裡面列出不要的字串或範圍!

範例:搜尋的字串可以是 (oog) (ood) 但不能是 (oot) ,那個 ^ 在 內時,代表的意義是『反向選擇』的意思。 例如,我不要大寫位元組,則為 [^a-z]。但是,需要特別注意的是,如果以 grep -n [^a-z] regular_express.txt 來搜尋,卻發現該檔案內的所有行都被列出,為什麼?因為這個 [^a-z] 是『非大寫位元組』的意思, 因為每一行均有非大寫位元組,例如第一行的 "open source" 就有 p,e,n,o.... 等等的小寫字

grep -n 'oo[^t]' regular_express.txt

\意義:連續 n 到 m 個的『前乙個 re 字元』

意義:若為 \ 則是連續 n 個的前乙個 re 字元,

意義:若是 \ 則是連續 n 個以上的前乙個 re 字元! 範例:在 g 與 g 之間有 2 個到 3 個的 o 存在的字串,亦即 (goog)(gooog)

grep -n 'go\g' regular_express.txt
注:因為 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字元 \ 來讓他失去特殊意義才行

再次強調:『正規表示法的特殊位元組』與一般在命令列輸入命令的『萬用位元組』並不相同, 例如,在萬用位元組當中的 * 代表的是『 0 ~ 無限多個位元組』的意思,但是在正規表示法當中, * 則是『重複 0 到無窮多個的前乙個 re 字元』的意思~使用的意義並不相同,不要搞混了!

舉例來說,不支援正規表示法的 ls 這個工具中,若我們使用 『ls -l * 』 代表的是任意檔名的檔案,而 『ls -l a* 』代表的是以 a 為開頭的任何檔名的檔案, 但在正規表示法中,我們要找到含有以 a 為開頭的檔案,則必須要這樣:(需搭配支援正規表示法的工具)

ls | grep -n '^a.*'

.* 就代表零個或多個任意位元組

另外,那個 ^ 符號,在位元組集合符號(括號)之內與之外是不同的! 在 內代表『反向選擇』,在 之外則代表定位在行首的意義!

例如:grep -n '^[^a-za-z]' 意義是 不要開頭是英文本母的行

另外,為了要避免編碼所造成的英文與數字的擷取問題,因此有些特殊的符號我們得要了解一下的! 這些符號主要有底下這些意義:

特殊符號

代表意義

[:alnum:]

代表英文大小寫位元組及數字,亦即 0-9, a-z, a-z

[:alpha:]

代表任何英文大小寫位元組,亦即 a-z, a-z

[:blank:]

代表空白鍵與 [tab] 按鍵兩者

[:cntrl:]

代表鍵盤上面的控制按鍵,亦即包括 cr, lf, tab, del.. 等等

[:digit:]

代表數字而已,亦即 0-9

[:graph:]

除了空白位元組 (空白鍵與 [tab] 按鍵) 外的其他所有按鍵

[:lower:]

代表小寫位元組,亦即 a-z

[:print:]

代表任何可以被列印出來的位元組

[:punct:]

代表標點符號 (punctuation symbol),亦即:" ' ? ! ; : # $...

[:upper:]

代表大寫位元組,亦即 a-z

[:space:]

任何會產生空白的位元組,包括空白鍵, [tab], cr 等等

[:xdigit:]

代表 16 進製的數字型別,因此包括: 0-9, a-f, a-f 的數字與位元組

正則表示法Regular Express

裡面不管有幾個字元,都是只代表選擇其中任意乙個 t ae st 代表 test 或者 tast 代表反向選擇 grep n g oole filename 選擇oo前面不是g的字段 位於re的首部 代表只匹配為與行首的字段 the 則you are the 該行不會被選中grep n lower f...

shell基礎(2) 正則

shell正規表示式分為兩種 基礎正規表示式 bre basic regular express 擴充套件正規表示式 ere extend regular express 擴充套件的表示式有 和 匹配以什麼什麼開頭 和一起使用表示排除 匹配以什麼結尾的 匹配除了 n 之外的任意字元 匹配多個 轉義 ...

Linux基礎之正規表示法

1 正規表示法 處理字串的方法 a grep acinv color auto 搜尋字串 filename a 將binary檔案以text檔案的方式搜尋資料 i 忽略大小寫 n 輸出行號 color auto 可以將找到的關鍵字部分加上顏色的顯示 word 待搜尋的字串在行首 word 待搜尋的字...