看了資料結構書上對於快速模式匹配演算法kmp的介紹,感覺雲裡霧裡。本文根據自己理解,並查資料整理了一種非常清晰簡單的字串匹配演算法,並給予實現,自詡原創吧。
字串匹配是我們經常要用到的一種演算法,與普通的匹配演算法相比kmp演算法效率更高,時間複雜度為o(m+n)。下面給予詳細講解:
設原字串為「bbc abcdab abcdabcdabde」,待匹配字串為「abcdabd」。
首先,字串」bbc abcdab abcdabcdabde」的第乙個字元與搜尋詞」abcdabd」的第乙個字元,進行比較。因為b與a不匹配,所以搜尋詞後移一位。
因為b與a不匹配,搜尋詞再往後移。
就這樣,直到字串有乙個字元,與搜尋詞的第乙個字元相同為止。
接著比較字串和搜尋詞的下乙個字元,還是相同。
直到字串有乙個字元,與搜尋詞對應的字元不相同為止。
這時,最自然的反應是,將搜尋詞整個後移一位,再從頭逐個比較。這樣做雖然可行,但是效率很差,因為你要把」搜尋位置」移到已經比較過的位置,重比一遍。
而怎麼記錄這個已知的資訊呢,聰明的人使用了一張」部分匹配表」來記錄已有的資訊。如何產生這張表,稍後解釋。
這就是一張部分匹配表。先說一下,部分匹配值,是根據字串字首和字尾算出來的。
已知空格與d不匹配時,前面六個字元」abcdab」是匹配的。查表可知,最後乙個匹配字元b對應的」部分匹配值」為2,因此按照下面的公式算出向後移動的位數:移動位數 = 已匹配的字元數 - 對應的部分匹配值
因為空格與a不匹配,繼續後移一位。
逐位比較,直到發現c與d不匹配。於是,移動位數 = 6 - 2,繼續將搜尋詞向後移動4位。
下面介紹《部分匹配表》是如何產生的。
首先,要了解兩個概念:」字首」和」字尾」。 「字首」指除了最後乙個字元以外,乙個字串的全部頭部組合;」字尾」指除了第乙個字元以外,乙個字串的全部尾部組合。
「部分匹配值」就是」字首」和」字尾」的最長的共有元素的長度。以」abcdabd」為例,計算部分匹配值:
-「a」的字首和字尾都為空集,共有元素的長度為0;
-「ab」的字首為[a],字尾為[b],共有元素的長度為0;
-「abc」的字首為[a, ab],字尾為[bc, c],共有元素的長度0;
-「abcd」的字首為[a, ab, abc],字尾為[bcd, cd, d],共有元素的長度為0;
-「abcda」的字首為[a, ab, abc, abcd],字尾為[bcda, cda, da, a],共有元素為」a」,長度為1;
-「abcdab」的字首為[a, ab, abc, abcd, abcda],字尾為[bcdab, cdab, dab, ab, b],共有元素為」ab」,長度為2;
-「abcdabd」的字首為[a, ab, abc, abcd, abcda, abcdab],字尾為[bcdabd, cdabd, dabd, abd, bd, d],共有元素的長度為0。
部分匹配」的實質是,有時候,字串頭部和尾部會有重複。比如,」abcdab」之中有兩個」ab」,那麼它的」部分匹配值」就是2(」ab」的長度)。搜尋詞移動的時候,第乙個」ab」向後移動4位(字串長度-部分匹配值),就可以來到第二個」ab」的位置。
如果這6個已匹配的字元中沒有部分匹配值,說明這幾個字元都不能再和現有字元成功匹配了,所以指標直接移動到這幾個字元的後面。
首先計算出部分匹配表,再進行匹配
void get_match_table(const
char* p, int* next) }
void kmp_match(char *text, char *p, int *next)
} }
測試**:
int next[101], n;
char *p = "abcdabd";
char *text = "bbc abcdab abcdabcdabde";
get_match_table(p,next);
kmp_match(text, p, next);
這裡又發現了乙個比上面更快一點的演算法:
//更高效的方法,首先與第一字元比,直到匹配。。。
void get_match_table2(const
char* p, int* next)
else
}}int kmp_match2(char *text, char *p, int *next)
else
}if (j == np)
return i - np;
else
return -1;
}
用KMP演算法實現字串匹配
如果對於乙個字串a,將a的前面任意一部分挪到後邊去形成的字串稱為a的旋轉詞。比如a 12345 a的旋轉詞有12345,23456,34512,45123和51234。對於兩個字串a和b,請判斷a和b是否互為旋轉詞。給定兩個字串a和b及他們的長度lena,lenb,請返回乙個bool值,代表他們是否...
KMP演算法 字串匹配
kmp演算法基本思想 我們在用常規的思想做 字串匹配時候是 如 對如 字元如果 t abab 用p ba 去匹配,常規思路是 看 t 第乙個元素 a 是否 和p 的乙個 b 匹配 匹配的話 檢視各自的第二個元素,不匹配 則將 t 串的 第二個元素開始 和 p 的第乙個匹配,如此 一步一步 的後移 來...
KMP字串匹配演算法
kmp核心思想 計算模式串的next陣列,主串的索引在比較的過程中不回朔 ifndef kmp h define kmp h class kmp endif include kmp.h include include include using namespace std int kmp calcu...