UUID的演算法

2021-08-16 03:35:22 字數 4170 閱讀 7338

在具體討論之前,本文先釐清uuid(universally unique identifier)與guid(globally unique identifier)的關係。

在分布式、網路、單機環境下,為了能夠使用具有某種形式的id唯一標識系統中的任一元素,這樣的id可以不依賴中心認證自動生成,於是uuid就誕生了。

uuid標準的歷史沿革和具體實現在rfc 4122、itu-t rec. x.667和iso/iec 9834-8:2008中均有詳細描述。itu和iso採用的標準和rfc 4122都是在uuid的早期版本基礎上完成,各版本之間具有一致性和相容性。

guid一般是指microsoft對於uuid標準的實現,uuid的實現則多見於其他系統(*nix、mac os等)中。在了解了這一區別後,本文將統一使用uuid來指代對應的原理、演算法及實現。

文中關於uuid的討論全部基於rfc 4122和itu-t rec.x.667以及osf、ietf、itu-t、iso、fips的各種標準文件。而uuid的細節(如結構、表示、演算法、實現等)均以itu-trec. x667為唯一藍本,文中「本標準」即指代該藍本。

o 介紹

uuid是長度為16-byte(128-bit)的id,一般以形如f81d4fae-7dec-11d0-a765-00a0c91e6bf6的字串作為urn(uniform resource name,統一資源名稱)。

o 動機

無須中心認證,自動生成,支援一台機器每秒生成10m次(100納秒級,其隱含原因是指能夠區分的最小時間單位為100ns,將時間作為因子時,連續生成兩個uuid的時間至少要間隔100ns)。方便訪問、分配、排序、查詢。

o 結構

76543210765432107654321076543210

+ – - – = – - – = – - – = – - – +

15 |            timelow            | 12

11 |    timemid    |   version..   |  8

7  |vari.. |clock..|     node      |  4

3  |             node              |  0

+ – - – = – - – = – - – = – - – +

15 – 12: timelow 時間值的低位

11 – 10: timemid 時間值的中位

09 – 08: versionandtimehigh 4位版本號和時間值的高位

07: variantandclockseqhigh 2位變體(itu-t)和時鐘序列高位

06: clockseqlow 時鐘序列低位

05 – 00: node 結點

hexoctet = hexdigit hexdigit

hexdigit =

「0″ / 「1″ / 「2″ / 「3″ / 「4″ / 「5″ / 「6″ / 「7″ / 「8″ / 「9″ /

「a」 / 「b」 / 「c」 / 「d」 / 「e」 / 「f」 /

「a」 / 「b」 / 「c」 / 「d」 / 「e」 / 「f」

uuid =

timelow

「-」 timemid

「-」 versionandtimehigh

「-」 variantandclockseqhigh clockseqlow

「-」 node

uuid由上述6個域構成,每個域編碼為若干位元組,並以16進製制數表示這128位的uuid,相鄰域以減號「-」分隔(variantandclockseqhigh和clockseqlow對應的兩個位元組例外,如上所示)。該結構中包含版本(version)、變體(variant)、時間(time)、時鐘序列(clock sequence)、節點(note)資訊(以無符號整型值表示)。

o 合法性

除判斷variant位設定是否正確、基於時間生成的uuid時間值是否為未經分配的將來時間外,實際應用中沒有其他機制可以判定uuid是否合法。

o 變體

variant位是uuid第7位元組(variantandclockseqhigh)的最高3位,

7 6 5  description

0 – –  ncs向後相容

1 0 –  本標準

1 1 0  microsoft向後相容

1 1 1  itu-t rec. x.667保留

o 版本

uuid的生成有時間、名稱、隨機數三種策略,以第9位元組(versionandtimehigh)的最高4位表示。

目前uuid定義有5個版本:

7 6 5 4  ver  description

0 0 0 1  1    基於時間的版本(本標準)

0 0 0 0  2    使用嵌入式posix(dce安全版本)

0 0 1 1  3    使用md5雜湊的基於名稱的版本(本標準)

0 1 0 0  4    基於隨機數的版本(本標準)

0 1 0 1  5    使用sha-1的基於名稱的版本(本標準)

o 時間

時間是乙個60位的整型值(除4位版本號外的前8位元組),對應utc(格林尼治時間2023年10月15日午夜始)的100ns時間間隔計數。

對於ver 4和5,該值分別對應乙個隨機數和乙個全域性唯一的名稱。

o 時鐘序列

對基於時間的uuid版本,時間序列用於避免因時間向後設定或節點值改變可能造成的uuid重複,對基於名稱或隨機數的版本同樣有用:目的都是為了防止uuid重複。

如果前一時鐘序列已知,通過自增實現時鐘序列值的改變;否則,通過密碼學(偽)隨機數設定新的時鐘序列值。

o 節點

對基於時間的uuid版本,節點由48位的單播mac位址構成。對於沒有mac位址的系統,節點值為乙個密碼學(偽)隨機數(為防止與mac位址發生碰撞,需設定多播位)。

o 基於時間的uuid生成演算法

o 確定utc時間(60位 time)和時間序列值(14位 clocksequence);

o 設定timelow(對應time的31-0位);

o 設定timemid(對應time的47-32位);

o 設定versionandtimehigh(4位版本號及time的59-48位);

o 設定variantandclockseqhigh(變體位及對應clocksequence的13-8位);

o 設定clockseqlow(對應clocksequence的7-0位);

o 設定node(對應48位mac位址)。

o 基於名稱的uuid生成演算法

o 針對相應的命名空間(如dns、url、oid等)分配乙個uuid作為所有uuid的命名空間標識;

o 將名稱轉換為位元組數列;

o 使用md5或sha-1演算法對與名稱關聯的命名空間標識進行計算,產生16位元組雜湊結果;

o 設定timelow(對應雜湊值的3-0位元組);

o 設定timemid(對應雜湊值的5-4位元組);

o 設定versionandtimehigh(對應雜湊值的7-6位元組),以相應版本號重寫對應位(第9位元組的高4位);

o 設定variantandclockseqhigh(對應雜湊值的第8位元組),重寫變體對應位(第7位元組的高2位,本標準對應值為10);

o 設定clockseqlow(對應雜湊值的第9位元組);

o 設定node(對應雜湊值的15-10位元組)。

由於md5碰撞問題,md5只用於向後相容的uuid生成,不再被推薦使用。由於sha-1雜湊結果為160位(20位元組),本演算法中,需要將fipspub 180-2中的sha-1演算法的雜湊值位元組順序反轉(位元組內順序不變),uuid使用其15-0位元組,19-16位元組被丟棄。

o 基於隨機數的uuid生成演算法

o 設定variantandclockseqhigh的變體位值為10;

o 設定versionandtimehigh的4位版本號;

o 設定剩餘位為隨機值。

本文中討論的密碼學隨機數,主要根據系統可以提供的資訊(記憶體、硬碟、控制代碼、程式執行的執行緒、程序、控制代碼、堆疊等),利用sha-1等雜湊演算法得到。

獲取裝置UUID

我們經常需要獲取使用者裝置的唯一識別符號,一般來說都是使用的uuid,本文介紹簡單的獲取uuid的方法。一般來說都是通過uuid來獲取裝置的uuid的,雖然uuid也不是獨一無二的,但大多還是使用的這個來標識。要獲取uuid也很簡單,幾行 就可以了。我們在使用的時候,可以將uuid也儲存在keych...

UUID編碼規則

uuid的編碼規則 1 1 8位採用系統時間,在系統時間上精確到毫秒級保證時間上的惟一性 2 9 16位採用底層的ip位址,在伺服器集群中的惟一性 3 17 24位採用當前物件的hashcode值,在乙個內部物件上的惟一性 4 25 32位採用呼叫方法的乙個隨機數,在乙個物件內的毫秒級的惟一性。uu...

uuid 不好之處

資料庫中直接儲存uuid的壞處 完全 隨機 的字串,例如由md5 sha1 uuid 產生的。它們產生的每乙個新值都會被任意地儲存在很大的空間範圍內,這會減慢insert及一些select查詢。1 它們會減慢insert查詢,因為插入的值會被隨機地放入索引中。這會導致分頁 隨機磁碟訪問及聚集儲存引擎...