問題:查詢大量無序元素中最大的k個數。
解法一:該解法是大部分能想到的,也是第一想到的方法。假設資料量不大,可以先用快速排序或堆排序,他們的平均時間複雜度
為o(n*logn),然後取出前k個,時間複雜度為o(k),總的時間複雜度為o(n*logn)+o(k).
當k=1時,上面的演算法的時間複雜度也是o(n*logn),上面的演算法是把整個陣列都進行了排序,而原題目只要求最大的k個數,並
不需要前k個數有限,也不需要後n-k個數有序。可以通過部分排序演算法如選擇排序和交換排序,把n個數中的前k個數排序出來,復
雜度為o(n*k),選擇哪乙個,取決於k的大小,在k(k
解法二
:(掌握)避免對前k個數進行排序來獲取更好的效能(利用快速排序的原理)。
假設n個數儲存在陣列s中,從陣列中隨機找乙個元素x,將陣列分成兩部分sa和sb.sa中的元素大於等於x,sb中的元素小於x。
出現如下兩種情況:
(1)若sa組的個數大於或等於k,則繼續在sa分組中找取最大的k個數字 。
(2)若sa組中的數字小於k ,其個數為t,則繼續在sb中找取 k-t個數字 。
一直這樣遞迴下去,不斷把問題分解成小問題,平均時間複雜度為o(n*logk)。
**如下:
[cpp]view plain
copy
/*將陣列a[s]...a[t]中的元素用乙個元素劃開,儲存中a[k]中*/
void partition(int a, int s,int t,int &k)
while(i//直到指標i與j相等
a[i]=x; //劃分元素就位
k=i;
}
/*查詢陣列前k個最大的元素,index:返回陣列中最大元素中第k個元素的下標(從0開始編號),high為陣列最大下標*/
int findkmax(int a,int low,int high,int k)
return index;
} int main()
;
int len=sizeof(a)/sizeof(int);
int k=4;
findkmax(a , 0 , len- 1 , k) ;
for(int i = 0 ; i < k ; i++)
cout<" ";
return 0;
}
解法三:(
掌握)用容量為k的最小堆來儲存最大的k個數。最小堆的堆頂元素就是最大k個數中的最小的乙個。每次掃瞄乙個資料x,如果x比堆頂元素y小,則不需要改變原來的堆。如果x比堆頂元素大,那麼用x替換堆頂元素y,在替換之後,x可能破壞了最小堆的結構,需要調整堆來維持堆的性質。調整過程時間複雜度為o(logk)。 全部的時間複雜度為o(n*logk)。
這種方法當資料量比較大的時候,比較方便。因為對所有的資料只會遍歷一次,第一種方法則會多次遍歷陣列。 如果所查詢的k的數量比較大。可以考慮先求出k` ,然後再求出看k`+1 到 2 * k`之間的資料,然後一次求取。
**如下:
[cpp]view plain
copy
void heapifymin(int array,int i,int size)
if(right
//開始交換父結點和最大的子結點
if(smallest!=i)
} } //建堆過程,建立最小堆,從最後乙個結點開始調整為最小堆
void min_heapify(int array,int size)
//k為需要查詢的最大元素個數,size為陣列大小,kmax儲存k個元素的最小堆
void findmax(int array,int k,int size,int kmax)
} } int main()
; int length=sizeof(a)/sizeof(int);
//最大四個元素為23,52,35,12
/***************查詢陣列中前k個最大的元素****************/
int k=4;
int * kmax=(int *)malloc(k*sizeof(int));
findmax(a,k,length,kmax);
printf("最大的%d個元素如下所示 : \n",k);
for(int i=0;iprintf("%4d",kmax[i]);
printf("\n");
return 0;
}
解法四:
這也是尋找n個數中的第k大的數演算法。利用二分的方法求取top k問題。 首先查詢 max 和 min,然後計算出mid = (max + min) / 2該演算法的實質是尋找最大的k個數中最小的乙個。
[cpp]view plain
copy
const
int n = 8 ;
const
int k = 4 ;
/* 利用二分的方法求取top k問題。
首先查詢 max 和 min,然後計算出 mid = (max + min) / 2
該演算法的實質是尋找最大的k個數中最小的乙個。
*/int find(int * a , int x) //查詢出大於或者等於x的元素個數
return sum ;
}
int getk(int * a , int max , int min) //最終max min之間只會存在乙個或者多個相同的數字
cout<<"end"
}
int main()
;
int x = getk(a , 554 , 2) ;
coutreturn 0 ;
}
該演算法在實際應用中效果不佳。
解法五:如果n個數都是正數,取值範圍不太大,可以考慮用空間換時間。申請乙個包括n中最大值的maxn大小的陣列count[maxn],count
[i]表示整數i在所有整數中的個數。這樣只要掃瞄一遍陣列,就可以得到第k大的元素。
**如下:
[cpp]view plain
copy
for(sumcount = 0, v = maxn -1; v >=0; v--)
return v;
擴充套件問題:
1.如果需要找出n個數中最大的k個不同的浮點數呢?比如,含有10個浮點數的陣列(1.5,1.5,2.5,3.5,3.5,5,0,- 1.5,3.5)中最大的3個不同的浮點數是(5,3.5,2.5)。
解答:除了解法五不行,其他的都可以。因為最後一種需要是正數。
2. 如果是找第k到第m(0解法三)用堆排序當每乙個網頁權重更新的時候,更新堆。
舉一反三:查詢最小的k個元素
解答:最直觀的方法是用快速排序或堆排序先排好,在取前k小的資料。最好的辦法是利用解法二和解法三的原
程式設計之美 尋找最大的K個數
有很多個無序數,我們姑且假定他們各不相等,怎麼挑選出其中最大的若干個數呢?如果這個資料量很大,比如1億個,如果所存資料是浮點型呢?我們該怎麼處理呢?分兩部分,第一部分是我個人的解答,第二部分是書上的解答 第一部分 1,如果這個問題裡的資料都是整數,這個問題利用hash對映應該很簡單,就是在開闢乙個陣...
程式設計之美 尋找最大的K個數
有很多個無序數,我們姑且假定他們各不相等,怎麼挑選出其中最大的若干個數呢?如果這個資料量很大,比如1億個,如果所存資料是浮點型呢?我們該怎麼處理呢?分兩部分,第一部分是我個人的解答,第二部分是書上的解答 第一部分 1,如果這個問題裡的資料都是整數,這個問題利用hash對映應該很簡單,就是在開闢乙個陣...
程式設計之美 尋找最大的k個數
有很多無序的數,我們姑且假定它們各不相等,怎麼選出其中最大的若干個數呢?idea 1 先用快速排序或者堆排序進行排序,然後取出最大的k個數,時間複雜度為o nlogn o k o nlogn idea 2 進行k趟最大冒泡或者k次大頂堆的輸出,時間複雜度為o n k 根據k與logn的大小比較,選取...