python迴圈使用正規表示式匹配速度慢

現在有一系列的模糊匹配規則，需要對乙個文件中的每乙個句子利用每乙個匹配規則進行正則匹配，具體**如下：

# sentences為句子列表 # re_str為正規表示式列表，其中元素類似 "^你好$" 這種正規表示式 for sent in sentences: for pattern in re_str: if re.findall(pattern, sent): print(sent)

break

**很簡單，但是在執行時出現了乙個問題，就是匹配速度非常慢，而且re_str的數量存在乙個臨界值，當數量大於臨界值，匹配速度大大降低，當數量小於臨界值，匹配速度大幅提公升。

首先說一下解決辦法，解決辦法就是利用re.complie對每乙個正規表示式進行編譯，具體如下：

# sentences為句子列表
# re_str為正規表示式列表，其中元素類似 "^你好$" 這種正規表示式
patterns = [re.compile(i) for i in re_str]
for sent in sentences:
for pattern in patterns :
if pattern.findall(sent):
print(sent)
break

個人認為，正規表示式匹配時，首先會對正則匹配字串進行編譯，然後將編譯結果進行快取，但是快取大小是有限的，所以當正規表示式數量達到一定規模時，新的編譯結果會將之前結果覆蓋，也就是說每次對乙個新的句子進行匹配時都需要對所有正規表示式進行重新編譯，這是主要的耗時點。反之亦然。

python迴圈使用正規表示式匹配速度慢

python正規表示式及使用正規表示式的例子

Python正規表示式使用

python 正規表示式使用

python迴圈使用正規表示式匹配速度慢

python正規表示式及使用正規表示式的例子

Python正規表示式使用

python 正規表示式使用

相關推薦