題目:
假設乙個機器只儲存乙個標號為
id的記錄,假設每份資料儲存
2個備份,這樣就有
2個機器儲存了相同的資料。其中id是小於10億的整數
問題1、
在某個時間,如果得到乙個資料檔案
id的列表。是否能夠快速的找到這個表中僅出現一次的
id?即快速找出出現故障的機器儲存的資料id。
問題2、
如果有兩台機器宕機呢?(假設同乙個資料的倆個備份不會同時丟失,即列表中缺少的是兩個不等的id)
擴充套件題、
如果所有的機子都有三個備份,也就是說同一
id的機子有三颱。而且同時又有三颱機子宕機,還能用上面的方法解決嗎?
如果有n
臺備份,又同時有
n臺機器宕機呢?
~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~~
問題重新闡述:
問題1、已知乙個陣列,陣列中只有乙個資料是出現一遍的,其他資料都是出現兩遍,我們要把這個資料找出來
問題2、已知乙個陣列,陣列中有兩個不同的資料都出現一遍,其他資料都是出現兩遍,我們要把這兩個資料找出來
問題3、已知乙個陣列,陣列丟失了三個資料,我們要把這三個資料找出來
之後可以擴充套件到n個
~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~
問題1、已知乙個陣列,陣列中只有乙個資料是出現一遍的,其他資料都是出現兩遍,我們要把這個資料找出來
方法
一、使用計數排序(借助map)
思想:遍歷整個
id列表
,使用map
記錄每個id出現的次數。之後,只出現一次的id為所求
時間複雜度
o(n),
空間複雜度
o(n)
注:不用map,而用陣列的話,空間複雜度會大於n(n表示有n個數
),應該是10億(id的最大值可能為10億)
缺點:空間複雜度太大,對已經出現過兩次的id仍要儲存,但它已經不可能是出故障的機器了
方法
二、仍使用計數排序,但是對已經出現過兩次的id不在儲存
思想:遍歷列表,對於每乙個id,先檢查hash表中是否有與之相同的id
若有,則從hash表中刪除該id;
否則,將該id加入到hash表中。
這樣,遍歷完列表後,hash表中剩下的那乙個元素即為所求id。
時間複雜度
o(n),
空間複雜度最好為o(1),最壞為
o(n)
方法
三、利用異或運算(推薦使用)
思想:將列表中的所有id異或,之後得到的值即為所求id。
利用異或運算可以得到
x^x=0 x^y=z x^0=x
[cpp]view plain
copy
x ⊕ x = 0 x ⊕ y = z x ⊕ 0 = x
比如說id為 2 1 2 3 1 要找的id為3
2的二進位制為010,1的二進位制為001
3的二進位制為011
則2 ⊕1 = 010⊕001= 011
011 ⊕2 = 011⊕010=001=1(2⊕1⊕2 = 1)
1⊕3 = 001⊕011=010
010⊕001=011 = 3
最終的結果仍然是那個只出現一次的數
時間複雜度為o(n),空間複雜度為o(1)。在時間和空間上,基本已經達到最優。
缺點:前提是只有乙個id出現一次,若出現多次,則不適合
方法
四、利用 "不變數" (推薦使用)
思路:這裡,所有id的和為乙個不變數,對現在剩下id求和。所有id的和與剩下id的和之差即為所求id。
時間複雜度:o(n)時間,空間複雜度o(1)
總結:使用異或 和 不變數 都已經很優化。均能在只遍歷一次列表,只需乙個變數的條件下解決。
~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~
問題2、已知乙個陣列,陣列中有兩個不同的資料都出現一遍,其他資料都是出現兩遍,我們要把這兩個資料找出來
題裡面是丟失的是兩個不同的資料,我們這裡兩種情況都考慮下
如果缺少的兩個數字不相同,
方法:進行異或操作
思路:由於缺少的數不同,則最後異或的結果不為0。
[cpp]view plain
copy
(1)對陣列中所有的id進行異或,結果為a
(2)我們找到a的二進位制表示中,最低一位為1的位置b
(3)根據b位是否為1,將id陣列中的數分為兩個陣列,其中乙個陣列中的b位為1,另乙個佇列中的b位為0。
(注意,每個陣列中,除了那個只出現一次的數外,其他數都是出現兩次的,此時就可以在陣列內使用異或操作)
(4)然後對兩個陣列,分別進行異或操作,則將得到兩個不為0的數字。即為所丟失的兩個id。
如果缺少的兩個數字相同
(此時陣列中所有id都是成對出現,異或值還是為0,不能使用異或實現)
方法:可以使用不變數實現。丟失兩個,生成兩個方程,聯立求值
此時我們採取的方法如下:
[cpp]view plain
copy
(1)首先計算出初始未丟失之前,所有id之和。
(2)然後計算出丟失之後的id之和,然後(1)(2)結果進行相減操作,得到方程x+ y = a。
(3)利用丟失前後平方和之差,來與(2)進行聯立,得到方程x * x + y * y = b。
(4)對兩方程進行聯立,即可以求出最終的結果。
~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~
問題3、已知乙個陣列,陣列丟失了三個資料,我們要把這三個資料找出來
之後可以擴充套件到n個
方法一:我們需要建立三/n個方程,求出這些都是的數
此時,當方程為n時,要求n個方程可不好求
方法二:使用計數排序 + 計數值達到a時map不在儲存
這時,最終可以得到這幾個數
~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~
相關題目
給你一副雜亂的撲克牌(不包括大小王),任意從其中抽出一張牌,怎樣用最簡單的方法來知道抽出的是1~13中的那一張?(不要求知道花色)
方法:利用不變數
事先算好所有牌的和(1+...+13) x 4 = 364
然後分別減去留下的牌點數,最終得到的就是抽出的那一張
致敬原創:
程式設計之美 1 5 快速找出故障機器
解法3 使用異或 問題1 找出出現奇數次的兩個數 void findrepeatedtwonumbers int a,int n,int no1,int no2 temp的值現為兩個出現奇數次的數的異或 找第乙個為1的位 for j 0 j sizeof int 8 j 第j位為1,說明這兩個數字在...
程式設計之美 1 5 快速找出故障機器
題目 假設乙個機器只儲存乙個標號為id的記錄,假設每份資料儲存2個備份,這樣就有2個機器儲存了相同的資料。其中id是小於10億的整數 問題1 在某個時間,如果得到乙個資料檔案id的列表。是否能夠快速的找到這個表中僅出現一次的id?即快速找出出現故障的機器儲存的資料id。問題2 如果有兩台機器宕機呢?...
程式設計之美 1 5 快速找出故障機器
關心資料探勘和搜尋引擎的程式設計師都知道,我們需要很多的計算機來儲存和處理海量資料。然而,計算機難免出現硬體故障而導致網路聯絡失敗或宕機。為了保證搜尋引擎的服務質量,我們需要保證每份資料都有多個備份。簡單期間,我們假設乙個機器僅儲存乙個標號為id的記錄 假設id是小於10億的整數 假設每份資料儲存兩...