在具體討論之前,本文先釐清uuid(universally unique identifier)與guid(globally unique identifier)的關係。
在分布式、網路、單機環境下,為了能夠使用具有某種形式的id唯一標識系統中的任一元素,這樣的id可以不依賴中心認證自動生成,於是uuid就誕生了。
uuid標準的歷史沿革和具體實現在rfc 4122、itu-t rec. x.667和iso/iec 9834-8:2008中均有詳細描述。itu和iso採用的標準和rfc 4122都是在uuid的早期版本基礎上完成,各版本之間具有一致性和相容性。
guid一般是指microsoft對於uuid標準的實現,uuid的實現則多見於其他系統(*nix、mac os等)中。在了解了這一區別後,本文將統一使用uuid來指代對應的原理、演算法及實現。
文中關於uuid的討論全部基於rfc 4122和itu-t rec.x.667以及osf、ietf、itu-t、iso、fips的各種標準文件。而uuid的細節(如結構、表示、演算法、實現等)均以itu-trec. x667為唯一藍本,文中「本標準」即指代該藍本。
o 介紹
uuid是長度為16-byte(128-bit)的id,一般以形如f81d4fae-7dec-11d0-a765-00a0c91e6bf6的字串作為urn(uniform resource name,統一資源名稱)。
o 動機
無須中心認證,自動生成,支援一台機器每秒生成10m次(100納秒級,其隱含原因是指能夠區分的最小時間單位為100ns,將時間作為因子時,連續生成兩個uuid的時間至少要間隔100ns)。方便訪問、分配、排序、查詢。
o 結構
76543210765432107654321076543210
+ – - – = – - – = – - – = – - – +
15 | timelow | 12
11 | timemid | version.. | 8
7 |vari.. |clock..| node | 4
3 | node | 0
+ – - – = – - – = – - – = – - – +
15 – 12: timelow 時間值的低位
11 – 10: timemid 時間值的中位
09 – 08: versionandtimehigh 4位版本號和時間值的高位
07: variantandclockseqhigh 2位變體(itu-t)和時鐘序列高位
06: clockseqlow 時鐘序列低位
05 – 00: node 結點
hexoctet = hexdigit hexdigit
hexdigit =
「0″ / 「1″ / 「2″ / 「3″ / 「4″ / 「5″ / 「6″ / 「7″ / 「8″ / 「9″ /
「a」 / 「b」 / 「c」 / 「d」 / 「e」 / 「f」 /
「a」 / 「b」 / 「c」 / 「d」 / 「e」 / 「f」
uuid =
timelow
「-」 timemid
「-」 versionandtimehigh
「-」 variantandclockseqhigh clockseqlow
「-」 node
uuid由上述6個域構成,每個域編碼為若干位元組,並以16進製制數表示這128位的uuid,相鄰域以減號「-」分隔(variantandclockseqhigh和clockseqlow對應的兩個位元組例外,如上所示)。該結構中包含版本(version)、變體(variant)、時間(time)、時鐘序列(clock sequence)、節點(note)資訊(以無符號整型值表示)。
o 合法性
除判斷variant位設定是否正確、基於時間生成的uuid時間值是否為未經分配的將來時間外,實際應用中沒有其他機制可以判定uuid是否合法。
o 變體
variant位是uuid第7位元組(variantandclockseqhigh)的最高3位,
7 6 5 description
0 – – ncs向後相容
1 0 – 本標準
1 1 0 microsoft向後相容
1 1 1 itu-t rec. x.667保留
o 版本
uuid的生成有時間、名稱、隨機數三種策略,以第9位元組(versionandtimehigh)的最高4位表示。
目前uuid定義有5個版本:
7 6 5 4 ver description
0 0 0 1 1 基於時間的版本(本標準)
0 0 0 0 2 使用嵌入式posix(dce安全版本)
0 0 1 1 3 使用md5雜湊的基於名稱的版本(本標準)
0 1 0 0 4 基於隨機數的版本(本標準)
0 1 0 1 5 使用sha-1的基於名稱的版本(本標準)
o 時間
時間是乙個60位的整型值(除4位版本號外的前8位元組),對應utc(格林尼治時間2023年10月15日午夜始)的100ns時間間隔計數。
對於ver 4和5,該值分別對應乙個隨機數和乙個全域性唯一的名稱。
o 時鐘序列
對基於時間的uuid版本,時間序列用於避免因時間向後設定或節點值改變可能造成的uuid重複,對基於名稱或隨機數的版本同樣有用:目的都是為了防止uuid重複。
如果前一時鐘序列已知,通過自增實現時鐘序列值的改變;否則,通過密碼學(偽)隨機數設定新的時鐘序列值。
o 節點
對基於時間的uuid版本,節點由48位的單播mac位址構成。對於沒有mac位址的系統,節點值為乙個密碼學(偽)隨機數(為防止與mac位址發生碰撞,需設定多播位)。
o 基於時間的uuid生成演算法
o 確定utc時間(60位 time)和時間序列值(14位 clocksequence);
o 設定timelow(對應time的31-0位);
o 設定timemid(對應time的47-32位);
o 設定versionandtimehigh(4位版本號及time的59-48位);
o 設定variantandclockseqhigh(變體位及對應clocksequence的13-8位);
o 設定clockseqlow(對應clocksequence的7-0位);
o 設定node(對應48位mac位址)。
o 基於名稱的uuid生成演算法
o 針對相應的命名空間(如dns、url、oid等)分配乙個uuid作為所有uuid的命名空間標識;
o 將名稱轉換為位元組數列;
o 使用md5或sha-1演算法對與名稱關聯的命名空間標識進行計算,產生16位元組雜湊結果;
o 設定timelow(對應雜湊值的3-0位元組);
o 設定timemid(對應雜湊值的5-4位元組);
o 設定versionandtimehigh(對應雜湊值的7-6位元組),以相應版本號重寫對應位(第9位元組的高4位);
o 設定variantandclockseqhigh(對應雜湊值的第8位元組),重寫變體對應位(第7位元組的高2位,本標準對應值為10);
o 設定clockseqlow(對應雜湊值的第9位元組);
o 設定node(對應雜湊值的15-10位元組)。
由於md5碰撞問題,md5只用於向後相容的uuid生成,不再被推薦使用。由於sha-1雜湊結果為160位(20位元組),本演算法中,需要將fipspub 180-2中的sha-1演算法的雜湊值位元組順序反轉(位元組內順序不變),uuid使用其15-0位元組,19-16位元組被丟棄。
o 基於隨機數的uuid生成演算法
o 設定variantandclockseqhigh的變體位值為10;
o 設定versionandtimehigh的4位版本號;
o 設定剩餘位為隨機值。
本文中討論的密碼學隨機數,主要根據系統可以提供的資訊(記憶體、硬碟、控制代碼、程式執行的執行緒、程序、控制代碼、堆疊等),利用sha-1等雜湊演算法得到。
獲取裝置UUID
我們經常需要獲取使用者裝置的唯一識別符號,一般來說都是使用的uuid,本文介紹簡單的獲取uuid的方法。一般來說都是通過uuid來獲取裝置的uuid的,雖然uuid也不是獨一無二的,但大多還是使用的這個來標識。要獲取uuid也很簡單,幾行 就可以了。我們在使用的時候,可以將uuid也儲存在keych...
UUID編碼規則
uuid的編碼規則 1 1 8位採用系統時間,在系統時間上精確到毫秒級保證時間上的惟一性 2 9 16位採用底層的ip位址,在伺服器集群中的惟一性 3 17 24位採用當前物件的hashcode值,在乙個內部物件上的惟一性 4 25 32位採用呼叫方法的乙個隨機數,在乙個物件內的毫秒級的惟一性。uu...
uuid 不好之處
資料庫中直接儲存uuid的壞處 完全 隨機 的字串,例如由md5 sha1 uuid 產生的。它們產生的每乙個新值都會被任意地儲存在很大的空間範圍內,這會減慢insert及一些select查詢。1 它們會減慢insert查詢,因為插入的值會被隨機地放入索引中。這會導致分頁 隨機磁碟訪問及聚集儲存引擎...