一、問題描述
1、求乙個無序陣列的中位數, (若陣列是偶數,則中位數是指中間兩個數字之和除以2,若陣列是奇數,則中位數是指最中間位置。要求:不能使用排序,時間複雜度盡量低
2、例如:
lists = [3, 2, 1, 4] , 中位數為 = (2+3)/2 = 2.5
lists = [3, 1, 2] , 中位數為 2
3、演算法思想:
利用快速排序思想(但是並不是全部使用):任意挑選乙個元素,以該元素為key, 劃分陣列為兩個部分,如果左側陣列長度剛好為(n-1)/2, 那麼key就為中位數, 若左側陣列長度 < (n-1)/2 , 那麼中位數點在右側,反之,中位數在左側。然後進入相應的一側繼續尋找中位
平均時間複雜度為o(n)
二、程式
class solution(object):
def findmedian(self, lists):
if not lists or len(lists) == 0:
return
n = len(lists)
if n % bqddcvargu2 == 0:
a = self.partition(lists, n/2, 0, n-1)
b = self.partition(lists, n/2-1, 0, n-1)
mid = (lists[a]+lists[b])/ (2 * 1.0)
return mid
else:
mid = self.partition(lists, n/2, 0, n-1)
return lists[mid]
def partition(self, lists, k, start, end):
key = lists[start]
left, right = start, end
while left < right:
while left < right and lists[right] > key:
right = right - 1
lists[left] = lists[right]
while left < right and lists[left] < key:
left = left + 1
lists[right] = lists[left]
lists[left] = key
if left == k:
return left
elif left > k:
return self.partition(lists, k, start, left-1)
else:
return self.partition(lists, k, left+1, end)
if __name__ == "__main__":
sol = solution()
lists = [2, 5, 4, 9, 3, 6, 8, 7, 1]
# lists = [1, 2]
data = sol.findmedian(lists)
print("中位數 = %s" % data)
知識補充:python streaming 實現某個字段排序
一,hadoop streaming預設情況
1,在hadoop streaming的預設情況下,是以\t作為分隔符的,標準輸入時,每行的第乙個\t之前的內容作為key,第乙個\t之後的內容作為value。注意,如果乙個\t字元都沒有,那麼整行作為key。
2,streaming的一些引數如下:
-d stream.map.output.field.separator :設定map輸出中key和value的分隔符
-d stream.num.map.output.key.fields : 設定map程式分隔符的位置,該位置之前的部分作為key,之後的部分作為value
-d map.output.key.field.separator : 設定map輸出中key內部的分割符
-d num.key.fields.for.partition : 指定分桶時,key按照分隔符切割後,其中用於分桶key所佔的列數(配合-partitioner org.apache.hadoop.mapred.lib.keyfieldbasedpartitioner 使用)
-d stream.reduce.output.field.separator:設定reduce輸出中key和value的分隔符
-d stream.num.reduce.output.key.fields:設定reduce程式分隔符的位置
二,python streaming 實現某個欄位的排序
1, 輸入資料: cat data.txt (中間是tab鍵)
11 2
11 3
11 4 1
11 1
11 12 22
2,streaming程式如下:
vim sorted.sh
#!/bin/bash
export current=/home/chunhe.liao/hadoop_streaming/sort
/usr/local/hadoop-2.6.3/bin/hadoop jar /usr/local/hadoop-2.6.3/share/hadoop/tools/lib/hadoop-streaming-2.6.3.jar \
-d stream.map.output.field.separator='\t' \
-d stream.num.map.output.key.fields=3 \
-d mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.keyfieldbasedcomparator \
-d mapreduce.partition.keycomparator.options=-k3,3nr \ # 按照第三列逆序排列,可以根據想要的第幾段來選擇。
-input "/user/test/inputdata/datas3/data.txt" \
-output "/user/test/streaming/sorted_20180711" \
-mapper "python mapper.py" \
-reducer "python reducer.py" \
-file "$current/mapper.py" \
-file "$current/reducer.py"
(2) mapper.py
# -*- coding: utf-bqddcvargu8 -*-
import sys
for line in sys.stdin:
line = line.strip()
print(''.format(line))
(3) reducer.py
# -*- coding: utf-8 -*-
import sys
for line in sys.stdin:
line = line.strip()
print("".format(line))
執行命令:
bash sorted.sh
執行結果:
hdfs dfs -cat /user/test/streaming/sorted_20180711/part-00000
11 12 bqddcvargu22
11 3
11 2
11 4 1
11 1
本文標題: python 實現在無序陣列中找到中位數方法
本文位址: /jiaoben/python/302063.html
無序陣列中找第K個的數
題目分析 也就是從小往大排,第k小那個數。方法1 排序 nlogn 方法2 利用堆 nlogk 首先將前k個元素構建最大堆,堆頂是前k個元素中第k小的元素。這步複雜度klogk 遍歷剩餘元素 這步複雜度 n k logk 如果新元素 堆頂 堆頂不可能是第k大元素 移除堆頂 將新元素插入堆 否則 新元...
長度為n無序陣列找屎
假定這個n的長度為特別大 1 找乙個最小數 2.找乙個最大數和乙個最小數 最笨的方法排序 取最大值,和最小值,所需時間為n2 傻子的辦法 比較法 存兩個臨時變數 第乙個臨時變數,一直儲存最小的值,遍歷陣列,遇見比它小的進行交換,複雜度一直為n 另乙個臨時變數,則儲存最大值 聰明點的人 兩兩比較法 第...
無序數字中位數 如何在無序陣列中查詢第K小的值
如題 給定乙個無序陣列,如何查詢第k小的值。例子如下 在乙個無序陣列,查詢 k 3 小的數 輸入 arr 輸出 7在乙個無序陣列,查詢 k 4 小的數 輸入 arr 輸出 10幾種思路如下和複雜度分析如下 1 最簡單的思路直接使用快排,堆排或者歸併排,排序之後取陣列的k 1索引的值即可,時間複雜度為...