字元匹配kmp演算法

2021-08-08 21:45:15 字數 3472 閱讀 7181

前言 

之前對kmp演算法雖然了解它的原理,即求出p0···pi的最大相同前字尾長度k;但是問題在於如何求出這個最大前字尾長度呢?我覺得網上很多帖子都說的不是很清楚,

總感覺沒有把那層紙戳破,後來翻看演算法導論,32章 字串匹配雖然講到

了對前1.kmp演算法的原理:

本部分內容**:

字串匹配是計算機的基本任務之一。

舉例來說,有乙個字串"bbc abcdab abcdabcdabde",我想知道,裡面是否包含另乙個字串"abcdabd"?

許多演算法可以完成這個任務,knuth-morris-pratt演算法(簡稱kmp)是最常用的之一。它以三個發明者命名,起頭的那個k就是著名科學家donald knuth。

這種演算法不太容易理解,網上有很多解釋,但讀起來都很費勁。直到讀到jake boxer的文章,我才真正理解這種演算法。下面,我用自己的語言,試圖寫一篇比較好懂的kmp演算法解釋。

1.首先,字串"bbc abcdab abcdabcdabde"的第乙個字元與搜尋詞"abcdabd"的第乙個字元,進行比較。因為b與a不匹配,所以搜尋詞後移一位。

2.因為b與a不匹配,搜尋詞再往後移。

3.就這樣,直到字串有乙個字元,與搜尋詞的第乙個字元相同為止。

4.接著比較字串和搜尋詞的下乙個字元,還是相同。

5.直到字串有乙個字元,與搜尋詞對應的字元不相同為止。

6.這時,最自然的反應是,將搜尋詞整個後移一位,再從頭逐個比較。這樣做雖然可行,但是效率很差,因為你要把"搜尋位置"移到已經比較過的位置,重比一遍。

7.8.

怎麼做到這一點呢?可以針對搜尋詞,算出一張《部分匹配表》(partial match table)。這張表是如何產生的,後面再介紹,這裡只要會用就可以了。

9.已知空格與d不匹配時,前面六個字元"abcdab"是匹配的。查表可知,最後乙個匹配字元b對應的"部分匹配值"為2,因此按照下面的公式算出向後移動的位數:

移動位數 = 已匹配的字元數 - 對應的部分匹配值

因為 6 - 2 等於4,所以將搜尋詞向後移動4位。

10.11.

因為空格與a不匹配,繼續後移一位。

12.逐位比較,直到發現c與d不匹配。於是,移動位數 = 6 - 2,繼續將搜尋詞向後移動4位。

13.14.

下面介紹《部分匹配表》是如何產生的。

首先,要了解兩個概念:"字首"和"字尾"。 "字首"指除了最後乙個字元以外,乙個字串的全部頭部組合;"字尾"指除了第乙個字元以外,乙個字串的全部尾部組合。

15."部分匹配值"就是"字首"和"字尾"的最長的共有元素的長度。以"abcdabd"為例,

- "a"的字首和字尾都為空集,共有元素的長度為0;

- "ab"的字首為[a],字尾為[b],共有元素的長度為0;

- "abc"的字首為[a, ab],字尾為[bc, c],共有元素的長度0;

- "abcd"的字首為[a, ab, abc],字尾為[bcd, cd, d],共有元素的長度為0;

- "abcda"的字首為[a, ab, abc, abcd],字尾為[bcda, cda, da, a],共有元素為"a",長度為1;

- "abcdab"的字首為[a, ab, abc, abcd, abcda],字尾為[bcdab, cdab, dab, ab, b],共有元素為"ab",長度為2;

- "abcdabd"的字首為[a, ab, abc, abcd, abcda, abcdab],字尾為[bcdabd, cdabd, dabd, abd, bd, d],共有元素的長度為0。

16.

"部分匹配"的實質是,有時候,字串頭部和尾部會有重複。比如,"abcdab"之中有兩個"ab",那麼它的"部分匹配值"就是2("ab"的長度)。搜尋詞移動的時候,第乙個"ab"向後移動4位(字串長度-部分匹配值),就可以來到第二個"ab"的位置。

2.next陣列的求解思路

通過上文完全可以對kmp演算法的原理有個清晰的了解,那麼下一步就是程式設計實現了,其中最重要的就是如何根據待匹配的模版字串求出對應每一位的最大相同前字尾的長度。我先給出我的**:

1

void makenext(const

char p,int

next)

214 next[q] =k;15}

16 }

現在我著重講解一下while迴圈所做的工作:

已知前一步計算時最大相同的前字尾長度為k(k>0),即p[0]···p[k-1];

此時比較第k項p[k]與p[q],如圖1所示

如果p[k]等於p[q],那麼很簡單跳出while迴圈;

關鍵!關鍵有木有!關鍵如果不等呢???

那麼我們應該利用已經得到的next[0]···next[k-1]來求p[0]···p[k-1]這個子串中最大相同前字尾

,可能有同學要問了——為什麼要求p[0]···p[k-1]的最大相同前字尾呢???是啊!為什麼呢? 原因

在於p[k]已經和p[q]失配了,而且p[q-k] ··· p[q-1]又與p[0] ···p[k-1]相同,看來p[0]···p[k-1]這麼長的子串是用不了了,那麼我要找個同樣也是p[0]打頭、p[k-1]結尾的子串即p[0]···p[j-1](j==next[k-1]),看看它的下一項p[j]是否能和p[q]匹配。如圖2所示

附**:

1 #include2 #include

3void makenext(const

char p,int

next)

416 next[q] =k;17}

18}1920

int kmp(const

char t,const

char p,int

next)

2135

if (q ==m)

3639

} 40}

4142

intmain()43;

46char t = "

ababxbababcadfdsss";

47char p = "

abcdabd";

48 printf("

%s\n

",t);

49 printf("

%s\n

",p );

50//

makenext(p,next);

51kmp(t,p,next);

52for (i = 0; i < strlen(p); ++i)

5356 printf("\n"

);57

58return0;

59 }

字元匹配 KMP演算法

problem description 給定兩個字串string1和string2,判斷string2是否為string1的子串。input 輸入包含多組資料,每組測試資料報含兩行,第一行代表string1 長度小於1000000 第二行代表string2 長度小於1000000 string1和s...

演算法 KMP 字元匹配

主要參考 理解kmp 的9張ppt 假設模式串為p,原串為s 1 樸素方法 最壞時間複雜度 o p.length s.length 2 kmp 時間複雜度 o p.length s.length kmp演算法步驟 1.構造next陣列 2.將模式串和原串進行匹配 3 kmp相關練習 3道都是模板題,...

KMP字元匹配演算法原理

掘金位址鏈結 簡介 kmp演算法是一種改進的字元匹配演算法。由d.e.knuth,j.h.morris和v.r.pratt提出的,因此人們稱它為克努特 莫里斯 普拉特操作 簡稱kmp演算法 它的核心思想是,通過乙個next陣列,在匹配失敗後,減少字元移動的距離,達到快速匹配的目的。要想徹底理解kmp...