排序簡介
排序是資料處理中經常使用的一種重要運算,在計算機及其應用系統中,花費在排序上的時間在系統執行時間中占有很大比重;並且排序本身對推動演算法分析的發展也起很大作用。目前已有上百種排序方法,但尚未有乙個最理想的盡如人意的方法,本章介紹常用的如下排序方法,並對它們進行分析和比較。
1、插入排序(直接插入排序、折半插入排序、希爾排序);
2、交換排序(起泡排序、快速排序);
3、選擇排序(直接選擇排序、堆排序);
4、歸併排序;
5、基數排序;
學習重點
1、掌握排序的基本概念和各種排序方法的特點,並能加以靈活應用;
2、掌握插入排序(直接插入排序、折半插入排序、希爾排序)、交換排序(起泡排序、快速排序)、選擇排序(直接選擇排序、堆排序)、二路歸併排序的方法及其效能分析方法;
3、了解基數排序方法及其效能分析方法。
排序(sort)或分類
所謂排序,就是要整理檔案中的記錄,使之按關鍵字遞增(或遞減)次序排列起來。其確切定義如下:
輸入:n個記錄r1,r2,…,rn,其相應的關鍵字分別為k1,k2,…,kn。
輸出:ril,ri2,…,rin,使得ki1≤ki2≤…≤kin。(或ki1≥ki2≥…≥kin)。
1.被排序物件--檔案
被排序的物件--檔案由一組記錄組成。
記錄則由若干個資料項(或域)組成。其中有一項可用來標識乙個記錄,稱為關鍵字項。該資料項的值稱為關鍵字(key)。
注意:在不易產生混淆時,將關鍵字項簡稱為關鍵字。
2.排序運算的依據--關鍵字
用來作排序運算依據的關鍵字,可以是數字型別,也可以是字元型別。
關鍵字的選取應根據問題的要求而定。
【例】在高考成績統計中將每個考生作為乙個記錄。每條記錄包含准考證號、姓名、各科的分數和總分數等項內容。若要惟一地標識乙個考生的記錄,則必須用"准考證號"作為關鍵字。若要按照考生的總分數排名次,則需用"總分數"作為關鍵字。
排序的穩定性
當待排序記錄的關鍵字均不相同時,排序結果是惟一的,否則排序結果不唯一。
在待排序的檔案中,若存在多個關鍵字相同的記錄,經過排序後這些具有相同關鍵字的記錄之間的相對次序保持不變,該排序方法是穩定的;若具有相同關鍵字的記錄之間的相對次序發生變化,則稱這種排序方法是不穩定的。
注意:排序演算法的穩定性是針對所有輸入例項而言的。即在所有可能的輸入例項中,只要有乙個例項使得演算法不滿足穩定性要求,則該排序演算法就是不穩定的。
排序方法的分類
1.按是否涉及資料的內、外存交換分
在排序過程中,若整個檔案都是放在記憶體中處理,排序時不涉及資料的內、外存交換,則稱之為內部排序(簡稱內排序);反之,若排序過程中要進行資料的內、外存交換,則稱之為外部排序。
注意:① 內排序適用於記錄個數不很多的小檔案
② 外排序則適用於記錄個數太多,不能一次將其全部記錄放人記憶體的大檔案。
2.按策略劃分內部排序方法
可以分為五類:插入排序、選擇排序、交換排序、歸併排序和分配排序。
排序演算法分析
1.排序演算法的基本操作
大多數排序演算法都有兩個基本的操作:
(1) 比較兩個關鍵字的大小;
(2) 改變指向記錄的指標或移動記錄本身。
注意:第(2)種基本操作的實現依賴於待排序記錄的儲存方式。
2.待排檔案的常用儲存方式
(1) 以順序表(或直接用向量)作為儲存結構
排序過程:對記錄本身進行物理重排(即通過關鍵字之間的比較判定,將記錄移到合適的位置)
(2) 以鍊錶作為儲存結構
排序過程:無須移動記錄,僅需修改指標。通常將這類排序稱為鍊錶(或鏈式)排序;
(3) 用順序的方式儲存待排序的記錄,但同時建立乙個輔助表(如包括關鍵字和指向記錄位置的指標組成的索引表)
排序過程:只需對輔助表的表目進行物理重排(即只移動輔助表的表目,而不移動記錄本身)。適用於難於在鍊錶上實現,仍需避免排序過程中移動記錄的排序方法。
3.排序演算法效能評價
(1) 評價排序演算法好壞的標準
評價排序演算法好壞的標準主要有兩條:
① 執行時間和所需的輔助空間
② 演算法本身的複雜程度
(2) 排序演算法的空間複雜度
若排序演算法所需的輔助空間並不依賴於問題的規模n,即輔助空間是o(1),則稱之為就地排序(in-placesou)。
非就地排序一般要求的輔助空間為o(n)。
(3) 排序演算法的時間開銷
大多數排序演算法的時間開銷主要是關鍵字之間的比較和記錄的移動。有的排序演算法其執行時間不僅依賴於問題的規模,還取決於輸入例項中資料的狀態。
檔案的順序儲存結構表示
#define n l00 //假設的檔案長度,即待排序的記錄數目
typedef int keytype; //假設的關鍵字型別
typedef structrectype;
typedef rectype seqlist[n+1];//seqlist為順序表型別,表中第0個單元一般用作哨兵
注意:若關鍵字型別沒有比較算符,則可事先定義巨集或函式來表示比較運算。
【例】關鍵字為字串時,可定義巨集"#define lt(a,b)(stromp((a),(b))<0)"。那麼演算法中"a按平均時間將排序分為四類:
(1)平方階(o(n2))排序
一般稱為簡單排序,例如直接插入、直接選擇和氣泡排序;
(2)線性對數階(o(nlgn))排序
如快速、堆和歸併排序;
(3)o(n1+£)階排序
£是介於0和1之間的常數,即0<£<1,如希爾排序;
(4)線性階(o(n))排序
如桶、箱和基數排序。
各種排序方法比較
簡單排序中直接插入最好,快速排序最快,當檔案為正序時,直接插入和冒泡均最佳。
影響排序效果的因素
因為不同的排序方法適應不同的應用環境和要求,所以選擇合適的排序方法應綜合考慮下列因素:
①待排序的記錄數目n;
②記錄的大小(規模);
③關鍵字的結構及其初始狀態;
④對穩定性的要求;
⑤語言工具的條件;
⑥儲存結構;
⑦時間和輔助空間複雜度等。
不同條件下,排序方法的選擇
(1)若n較小(如n≤50),可採用直接插入或直接選擇排序。
當記錄規模較小時,直接插入排序較好;否則因為直接選擇移動的記錄數少於直接插人,應選直接選擇排序為宜。
(2)若檔案初始狀態基本有序(指正序),則應選用直接插人、冒泡或隨機的快速排序為宜;
(3)若n較大,則應採用時間複雜度為o(nlgn)的排序方法:快速排序、堆排序或歸併排序。
快速排序是目前基於比較的內部排序中被認為是最好的方法,當待排序的關鍵字是隨機分布時,快速排序的平均時間最短;
堆排序所需的輔助空間少於快速排序,並且不會出現快速排序可能出現的最壞情況。這兩種排序都是不穩定的。
若要求排序穩定,則可選用歸併排序。但本章介紹的從單個記錄起進行兩兩歸併的 排序演算法並不值得提倡,通常可以將它和直接插入排序結合在一起使用。先利用直接插入排序求得較長的有序子檔案,然後再兩兩歸併之。因為直接插入排序是穩定的,所以改進後的歸併排序仍是穩定的。
4)在基於比較的排序方法中,每次比較兩個關鍵字的大小之後,僅僅出現兩種可能的轉移,因此可以用一棵二叉樹來描述比較判定過程。
當檔案的n個關鍵字隨機分布時,任何借助於"比較"的排序演算法,至少需要o(nlgn)的時間。
箱排序和基數排序只需一步就會引起m種可能的轉移,即把乙個記錄裝入m個箱子之一,因此在一般情況下,箱排序和基數排序可能在o(n)時間內完成對n個記錄的排序。但是,箱排序和基數排序只適用於像字串和整數這類有明顯結構特徵的關鍵字,而當關鍵字的取值範圍屬於某個無窮集合(例如實數型關鍵字)時,無法使用箱排序和基數排序,這時只有借助於"比較"的方法來排序。
若n很大,記錄的關鍵字位數較少且可以分解時,採用基數排序較好。雖然桶排序對關鍵字的結構無要求,但它也只有在關鍵字是隨機分布時才能使平均時間達到線性階,否則為平方階。同時要注意,箱、桶、基數這三種分配排序均假定了關鍵字若為數字時,則其值均是非負的,否則將其對映到箱(桶)號時,又要增加相應的時間。
(5)有的語言(如fortran,cobol或basic等)沒有提供指標及遞迴,導致實現歸併、快速(它們用遞迴實現較簡單)和基數(使用了指標)等排序演算法變得複雜。此時可考慮用其它排序。
(6)本章給出的排序演算法,輸人資料均是儲存在乙個向量中。當記錄的規模較大時,為避免耗費大量的時間去移動記錄,可以用鍊錶作為儲存結構。譬如插入排序、歸併排序、基數排序都易於在鍊錶上實現,使之減少記錄的移動次數。但有的排序方法,如快速排序和堆排序,在鍊錶上卻難於實現,在這種情況下,可以提取關鍵字建立索引表,然後對索引表進行排序。然而更為簡單的方法是:引人乙個整型向量t作為輔助表,排序前令t[i]=i(0≤ir[t[0]].key≤r[t[1]].key≤…≤r[t[n-1]].key
若要求最終結果是:
r[0].key≤r[1].key≤…≤r[n-1].key
則可以在排序結束後,再按輔助表所規定的次序重排各記錄,完成這種重排的時間是o(n)。
各種排序演算法全分析
排序簡介 排序是資料處理中經常使用的一種重要運算,在計算機及其應用系統中,花費在排序上的時間在系統執行時間中占有很大比重 並且排序本身對推動演算法分析的發展也起很大作用。目前已有上百種排序方法,但尚未有乙個最理想的盡如人意的方法,本章介紹常用的如下排序方法,並對它們進行分析和比較。1 插入排序 直接...
全排序演算法
static void main string args int length arr.length int outarr new int length sortall arr,outarr,length console.writeline count static int count 0 stat...
資料結構 排序 各種排序演算法全分析
資料結構 排序 各種排序演算法全分析 排序簡介 排序是資料處理中經常使用的一種重要運算,在計算機及其應用系統中,花費在排序上的時間在系統執行時間中占有很大比重 並且排序本身對推動演算法分析的發展也起很大作用。目前已有上百種排序方法,但尚未有乙個最理想的盡如人意的方法,本章介紹常用的如下排序方法,並對...