js 正則學習小記之匹配字串字面量優化篇

2021-09-06 15:30:28 字數 1850 閱讀 9139

昨天在《js 正則學習小記之匹配字串字面量》談到 /"(?:\\.|[^"])*"/ 是個不錯的表示式,因為可以滿足我們的要求,所以這個表示式可用,但不一定是最好的。

從效能上來說,他非常糟糕,為什麼這麼說呢,因為 傳統型nfa引擎 遇到分支是從左往右匹配的,

所以它會用 \\. 去匹配每乙個字元,發現不對後才用 [^"] 去匹配。

比如這樣乙個字串: "123456\'78\"90"

共 16 個字元,除了第乙個 " 直接匹配成功,還剩餘 15 個,只有 2 個轉義(4 個字元),所以 \\. 會失敗 10 次,只有 2 次成功。

這 10 次匹配失敗,需要回溯後用 [^"] 才能匹配成功,當然最後乙個 " 會直接匹配成功。

很明顯,正常的字串不可能全是轉義,正常的字串才是主流,當然不排除有人故意全轉義的情況。

所以這個正則需要10次回溯後才能匹配完成,如果字串增長到 1k 1m 腫麼破呢?

所以我們要修改下這個正則,前後換下位置麼?

難道是 /"(?:[^"]|\\.)*"/ ? 呵呵,好像不太對,這樣的話轉義就不能被匹配了。

所以還要修改下 /"(?:[^"\\]|\\.)*"/ 這樣就ok了,遇到 \ 轉義就會用 \\. 去嘗試匹配。

可是還是有問題,因為我們在 [^"\\] 過濾掉了 \n 所以沒法匹配多行字元的情況。

js 中 字串用 \ 折行是允許的,但是修改後的 正則 沒法匹配這樣的字串了,所以我們還得繼續修復。

因為 . 沒法匹配換行,所以我們要用其他方式表達。

. 是用於匹配除換行符之外的所有字元,難道我們要 [.\n] 來表示麼?

這樣是不對的,因為 字符集中的 . 不再表示除換行符之外的所有字元,而是字元 . 也就是他本身乙個字元而已。

那怎麼辦呢?

其實換個思路,

\d 表示 0-9

\d 表示 [^0-9]

那麼 [\d\d] 就表示所有了,不是麼。(新人朋友不知道能不能消化這個知識點。)

同理 [\s\s] [\w\w] 同樣可以。

所以 /"(?:[^"\\]|\\[\d\d])*"/ 這樣就滿足我們的要求了。

效果不錯。

回頭過來分分析下他現在的效能吧。

還是這個字串: "123456\'78\"90" , 正則 /"(?:[^"\\]|\\[\d\d])*"/

共 16 個字元,除了第乙個" 直接匹配成功,還剩餘 15 個,有 2 個轉義(4 個字元),[^"\\] 能匹配成功 10 個字元,只有 2 次失敗。

為什麼不是 4 次失敗呢,明明有4個字元啊。\\ 雖然是2個字元,但是讀到第乙個 \ 就匹配失敗,然後用 \\[\d\d] 匹配成功,

占用掉了兩個字元 \\ 下次用下乙個o開始匹配,所以只有2次回溯。

只有 2 次需要回溯,然後用 \\[\d\d] 匹配成功。當然最後乙個 " 還是會直接匹配成功。

所以從 10 次回溯,減少到了 2 次,雖然正則比昨天臃腫了很多,但至少效能提公升了不止乙個等級。

ok,今天的分享完畢,明天見。

正則匹配字串小記

需求1.現有 裝置名 dev.json 裝置名 廠商名 型號名 dev.json 裝置名.json 廠商名 型號名.json 型號名 廠商名.json 裝置名 廠商名 bu.json 等字串,要求匹配出符合規則的字串,並且根據傳入的裝置名或者廠商名或者型號名講字串中對應的內容修改。裝置名 字串規則 ...

字串正則匹配

匹配1個或多個 匹配乙個 abc a b false abc a?c true abc a true ab a false 重點就是處理掉 如果匹配的時候 後面沒有字元了那返回真,如果有的話,那麼很簡單,從str中從後往前拿pattern 中 從 開始到pattern末尾個字元個數的字元,繼續遞迴匹...

字串匹配演算法問題小記

bf演算法也叫樸素模式匹配演算法,是由bruce force提出來的,演算法基本思想就是簡單粗暴的一次比較的問題。演算法的c 實現很簡單,但是在操作中遇到了一些細節問題。問題 include include include define len 100 intb findex char s,char...