1.介紹
陣列的特點是:定址容易,插入和刪除困難;
而鍊錶的特點是:定址困難,插入和刪除容易。
這個世界上有沒有一種能夠綜合兩者優點的,既定址容易又插入和刪除容易的資料結構?yes,它就是hash表。
2.雜湊雜湊方法
1)除留取餘法
2)平方雜湊法
3)fibonacci雜湊法
3.雜湊表使用範圍
快速查詢,刪除的基本資料結構o(1),通常需要將總資料量放入記憶體
4.必備知識
什麼是雜湊表:hash table,也叫雜湊表,是根據關鍵碼值(key value)而直接進行訪問的的一種資料結構。
也就是說,它通過把關鍵碼值對映到表中乙個位置來訪問記錄,以加快查詢速度。
這個函式叫做雜湊函式,存放記錄的陣列叫做雜湊表。
實戰1.直接排序法。
首先我們最先想到的的演算法就是排序了,首先對這個日誌裡面的所有query都進行排序,然後再遍歷排好序的query,統計每個query出現的次數了。但是題目中有明確要求,那就是記憶體不能超過1g,一千萬條記錄,每條記錄是255byte,很顯然要佔據2.375g記憶體,這個條件就不滿足要求了。 讓我們回憶一下資料結構課程上的內容,當資料量比較大而且記憶體無法裝下的時候,我們可以採用外排序的方法來進行排序,這裡我們可以採用歸併排序,因為歸併排序有乙個比較好的時間複雜度o(nlgn)。
排完序之後我們再對已經有序的query檔案進行遍歷,統計每個query出現的次數,再次寫入檔案中。
綜合分析一下,排序的時間複雜度是o(nlgn),而遍歷的時間複雜度是o(n),因此該演算法的總體時間複雜度就是o(n+nlgn)=o(nlgn)。
2、hash table法
在第1個方法中,我們採用了排序的辦法來統計每個query出現的次數,時間複雜度是nlgn,那麼能不能有更好的方法來儲存,而時間複雜度更低呢?
題目中說明了,雖然有一千萬個query,但是由於重複度比較高,因此事實上只有300萬的query,每個query255byte,因此我們可以考慮把他們都放進記憶體中去,而現在只是需要乙個合適的資料結構,在這裡,hash table絕對是我們優先的選擇,因為hash table的查詢速度非常的快,幾乎是o(1)的時間複雜度。
那麼,我們的演算法就有了:維護乙個key為query字串,value為該query出現次數的hashtable,每次讀取乙個query,如果該字串不在table中,那麼加入該字串,並且將value值設為1;如果該字串在table中,那麼將該字串的計數加一即可。最終我們在o(n)的時間複雜度內完成了對該海量資料的處理。
本方法相比演算法1:在時間複雜度上提高了乙個數量級,為o(n),但不僅僅是時間複雜度上的優化,該方法只需要io資料檔案一次,而演算法1的io次數較多的,因此該演算法2比演算法1在工程上有更好的可操作性。
第二步:找出top 10
演算法一:普通排序
我想對於排序演算法大家都已經不陌生了,這裡不在贅述,我們要注意的是排序演算法的時間複雜度是nlgn,在本題目中,三百萬條記錄,用1g記憶體是可以存下的。
演算法二:部分排序
題目要求是求出top10,因此我們沒有必要對所有的query都進行排序,我們只需要維護乙個10個大小的陣列,初始化放入10個query,按照每個query的統計次數由大到小排序,然後遍歷這300萬條記錄,每讀一條記錄就和陣列最後乙個query對比,如果小於這個query,那麼繼續遍歷,否則,將陣列中最後一條資料淘汰,加入當前的query。最後當所有的資料都遍歷完畢之後,那麼這個陣列中的10個query便是我們要找的top10了。
不難分析出,這樣,演算法的最壞時間複雜度是n*k, 其中k是指top多少。
演算法三:堆
在演算法二中,我們已經將時間複雜度由nlogn優化到nk,不得不說這是乙個比較大的改進了,可是有沒有更好的辦法呢?
分析一下,在演算法二中,每次比較完成之後,需要的操作複雜度都是k,因為要把元素插入到乙個線性表之中,而且採用的是順序比較。這裡我們注意一下,該陣列是有序的,一次我們每次查詢的時候可以採用二分的方法查詢,這樣操作的複雜度就降到了logk,可是,隨之而來的問題就是資料移動,因為移動資料次數增多了。不過,這個演算法還是比演算法二有了改進。
基於以上的分析,我們想想,有沒有一種既能快速查詢,又能快速移動元素的資料結構呢?回答是肯定的,那就是堆。
借助堆結構,我們可以在log量級的時間內查詢和調整/移動。因此到這裡,我們的演算法可以改進為這樣,維護乙個k(該題目中是10)大小的小根堆,然後遍歷300萬的query,分別和根元素進行對比。
思想與上述演算法二一致,只是演算法在演算法三,我們採用了最小堆這種資料結構代替陣列,把查詢目標元素的時間複雜度有o(k)降到了o(logk)。
那麼這樣,採用堆資料結構,演算法三,最終的時間複雜度就降到了n*logk,和演算法二相比,又有了比較大的改進。
總結:
至此,演算法就完全結束了,經過上述第一步、先用hash表統計每個query出現的次數,o(n);
然後第二步、採用堆資料結構找出top 10,n*o(logk)。
所以,我們最終的時間複雜度是:o(n) + n』*o(logk)。(n為1000萬,k為300萬)。
雜湊表應用例項
1 問題描述 針對某個集體 比如你所在的班級 中的 人名 設計乙個雜湊表,使得平均查詢長度不超過r,完成相應的建表和查表程式。2 基本要求 假設人名為中國人姓名的漢語拼音形式。待填入雜湊表的人名共有30個,取平均查詢長度的上限為2。雜湊函式用除留餘數法構造,用偽隨機探測再雜湊發處理衝突。3 資料結構...
雜湊表應用
本文 雜湊表的應用 c 實現 問題描述 設計雜湊表實現 號碼查詢系統,實現下列功能 1 假定每個記錄有下列資料項 號碼 使用者名稱 位址。2 一是從資料檔案old.txt 自己現行建好 中讀入各項記錄,二是由系統隨機產生各記錄,並且把記錄儲存到new.txt檔案中以及顯示到螢幕上,記錄條數不要少於3...
雜湊表應用
以下 用開雜湊裡的拉鍊法解決雜湊衝突 include include using namespace std define hashsize 3 struct movietype struct node class hashtable hashtable hashtable hashtable ha...