效能優化主要應該著眼於i/o和記憶體管理,i/o系統呼叫通常發生在毫秒級,cpu呼叫在亞微秒級。
一、雜湊
1、雜湊函式一般需要快速工作,需要滿足以下條件:
(1)最多含有乙個除法運算(一般是最後的取摸運算)
(2)生成廣泛的雜湊鍵
(3)不依賴於將促使產生聚集的資料屬性
通用的雜湊函式:hashpjw,elfhash
2、解決衝突的方法:
(2)非線性再雜湊,計算出乙個新的雜湊值(缺點:負載因子大於0.5時效能太差)
(3)外部拉鍊法,雜湊表中的每個槽視為相同雜湊值的資料項鍊表的頭部雜湊表將發生衝突的項新增到該鍊錶中。
影響雜湊表效能的最大概念:負載因子,插入表中元素個數/可用槽總數,負載因子越大效能越差。
當負載因子大於0.5時,再雜湊將不是可行的方案,效能太差。
建議:(1)建立大小合理的雜湊表,不過在負載因子0.2以下的雜湊表,擴充套件他們將不會提供更好的效能。
(2)確保每個雜湊表的槽數是乙個素數。
(3)在具有代表性的資料上測試雜湊表並度量結果。
(4)預先考慮衝突,在可能的地方預先使用拉鍊法。
二、排序
1、氣泡排序,n的平方
連續的掃瞄待排序的記錄,每次比較相鄰兩個中較大的乙個值,使其更接近頂部。
對正序排列很快,逆序和亂序很慢,優點:實現簡單。
2、插入排序,n的平方
每次在乙個有序的列表中找到需要插入元素的準確位置後插入。
3、希爾排序,
插入排序的變體,將序列依次拆成n/2,n/4 ,... ,1組資料分別進行插入排序。
4、快速排序,nlogn
快速排序是對氣泡排序的一種改進。
快速排序採用的思想是分治思想。
快速排序是找出乙個元素(理論上可以隨便找乙個)作為基準(pivot),然後對陣列進行分割槽操作,使基準左邊元素的值都不大於基準值,基準右邊的元素值 都不小於基準值,如此作為基準的元素調整到排序後的正確位置。遞迴快速排序,將其他n-1個元素也調整到排序後的正確位置。最後每個元素都是在排序後的正確位置,排序完成。所以快速排序演算法的核心演算法是分割槽操作,即如何調整基準的位置以及調整返回基準的最終位置以便分治遞迴。
舉例說明一下吧,這個可能不是太好理解。假設要排序的序列為
2 2 4 9 3 6 7 1 5 首先用2當作基準,使用i j兩個指標分別從兩邊進行掃瞄,把比2小的元素和比2大的元素分開。首先比較2和5,5比2大,j左移
2 2 4 9 3 6 7 1 5 比較2和1,1小於2,所以把1放在2的位置
2 1 4 9 3 6 7 1 5 比較2和4,4大於2,因此將4移動到後面
2 1 4 9 3 6 7 4 5 比較2和7,2和6,2和3,2和9,全部大於2,滿足條件,因此不變
經過第一輪的快速排序,元素變為下面的樣子
[1] 2 [4 9 3 6 7 5]
之後,在把2左邊的元素進行快排,由於只有乙個元素,因此快排結束。右邊進行快排,遞迴進行,最終生成最後的結果。
5、堆排序
若將和此序列對應的一維陣列(即以一維陣列作此序列的儲存結構)看成是乙個完全二叉樹,則堆的含義表明,完全二叉樹中所有非終端結點的值均不大於(或不小於)其左、右孩子結點的值。
由此,若序列是堆,則堆頂元素(或完全二叉樹的根)必為序列中n個元素的最小值(或最大值)。
若在輸出堆頂的最小值之後,使得剩餘n-1個元素的序列重又建成乙個堆,則得到n個元素的次小值。如此反覆執行,便能得到乙個有序序列,這個過程稱之為堆排序。
堆排序方法對記錄數較少的檔案並不值得提倡,但對n較大的檔案還是很有效的。因為其執行時間主要耗費在建初始堆和調整建新堆時進行的反覆「篩選」上。
堆排序在最壞的情況下,其時間複雜度也為o(nlogn)。相對於快速排序來說,這是堆排序的最大優點。此外,堆排序僅需乙個記錄大小的供交換用的輔助儲存空間。
實用的排序演算法
選擇排序的有序化是從第頭開始有序化的。如 n個元素 從小向大排序 第乙個和後面n 1個元素一一比較 如果發現後面元素的比他小 交換他們兩 一輪下去就可以保證第乙個元素是最小的 後面從第二個元素開始往後面比較 重複以上步驟直到倒數第二個數字 public class xuanze for int i ...
linux unix實用筆記
usr bin env python 使用env讓系統去找直譯器這種方式比較好 ctrl a 切換到命令列開始 這個操作跟home實現的結果一樣的,但home在某些unix環境下無法使用,便可以使用這個 組合 在linux下的vim,這個也是有效的 另外,在windows的許多檔案編輯器裡,這個也是...
iozone 實用筆記
1 安裝 1 wget 2 tar xf iozone3 308.tar 3 cd root iozone3 308 src current 4 make linux 2 使用 iozone常用的幾個引數.a 全面測試,比如塊大小它會自動加 i n 用來選擇測試項,比如read write rand...