當我們要判斷兩個字元是否相等時,如s1="abc",s2=「abb」。如果我們從頭到尾逐個比較,則時間複雜度為o(m)。
這裡我們就要用到字串雜湊來降到o(1)。
說得通俗一點,字串雜湊實質上就是把每個不同的字串轉成不同的整數。
為什麼會有這樣的需要呢?很明顯,儲存乙個超長的字串和儲存乙個超大但是能存的下的整數,後者所佔的空間會少的多,但主要還是為了方便判斷乙個字串是否出現過,這是最基礎的部分。
當然也很容易想到,如果有不同的字串轉成同乙個整數,那麼區分功能就基本廢掉 ,所以我們需要乙個演算法把每個字串轉成唯一的整數。所以字串雜湊演算法就應運而生,雜湊演算法的難點也就在於如何構造乙個合適的hash函式來滿足我們的需求。
hash函式要做到一一對應
如果我們按這個轉換規則,得到的hash_code值會很大很大,計算機根本存不下。這個時候就需要我們來取模了。 但取模的數不能亂取,不然會造成衝突(即兩個字串不相等,但取模後結果相同)。
這裡我們用到乙個小技巧,就是unsigned long long 如果溢位以後,它會自動幫你%2^64。
我們還可以從x(表示轉換為x進製)來降低衝突。根據計算機科學家概率的方式來統計,發現x取:131,1331,13331… 它的衝突率是最小的。
執行截圖
字串雜湊
參照演算法筆記p109,甲級1039 先假設字串均由大寫字母a z構成。在這個基礎上,不妨把a z視為0 25,這樣就把26個大寫字母對應到了26進製中。接著,按照將26進製轉化為10進製的思路,由進製的轉換結論可知,在進製轉換過程中,得到的10進製肯定是唯一的,由此便可實現將字串對映為整數的需求 ...
字串雜湊
昨天做了一道字串雜湊的題,感覺還好理解。今天的題看了 不知道為什麼,搜來搜去發現不知道的東西還很多,網上找到的東西也都是很零散,書上也沒有系統的講解。先自己整理一下這些零散的知識 關於字串涉及到的演算法大概有 hash kmp trie ac自動機等等,現在還都不明白是怎麼回事,這次先研究字串has...
字串雜湊
給定乙個長度為n的字串,再給定m個詢問,每個詢問包含四個整數l1,r1,l2,r2,請你判斷 l1,r1 和 l2,r2 這兩個區間所包含的字串子串是否完全相同。字串中只包含大小寫英文本母和數字。輸入格式 第一行包含整數n和m,表示字串長度和詢問次數。第二行包含乙個長度為n的字串,字串中只包含大小寫...