在設計這個編碼的時候,我想設計人員最主要考慮了3個問題:
1.是否加密?
2.加密演算法複雜程度和效率
3.如何處理傳輸?
加密是肯定的,但是加密的目的不是讓使用者傳送非常安全的email。這種加密方式主要就是「防君子不防小人」。即達到一眼望去完全看不出內容即可。
基於這個目的加密演算法的複雜程度和效率也就不能太大和太低。和上乙個理由類似,mime協議等用於傳送email的協議解決的是如何收發email,而並不是如何安全的收發email。因此演算法的複雜程度要小,效率要高,否則因為傳送email而大量占用資源,路就有點走歪了。
但是,如果是基於以上兩點,那麼我們使用最簡單的愷撒法即可,為什麼base64看起來要比愷撒法複雜呢?這是因為在email的傳送過程中,由於歷史原因,email只被允許傳送ascii字元,即乙個8位位元組的低7位。因此,如果您傳送了一封帶有非ascii字元(即位元組的最高位是1)的email通過有「歷史問題」的閘道器時就可能會出現問題。閘道器可能會把最高位置為0!很明顯,問題就這樣產生了!因此,為了能夠正常的傳送email,這個問題就必須考慮!所以,單單靠改變字母的位置的愷撒之類的方案也就不行了。關於這一點可以參考rfc2046。
基於以上的一些主要原因產生了base64編碼。
演算法詳解
base64編碼要求把3個8位位元組(3*8=24)轉化為4個6位的位元組(4*6=24),之後在6位的前面補兩個0,形成8位乙個位元組的形式。
具體轉化形式間下圖:
字串「張3」
11010101 11000101 00110011
00110101 00011100 00010100 00110011
表1 可以這麼考慮:把8位的位元組連成一串110101011100010100110011
然後每次順序選6個出來之後再把這6二進位制數前面再新增兩個0,就成了乙個新的位元組。之後再選出6個來,再新增0,依此類推,直到24個二進位制數全部被選完。
讓我們來看看實際結果:
字串「張3」
11010101 hex:d5 11000101 hex:c5 00110011 hex:33
00110101 00011100 00010100 00110011
字元』5』 字元』^\』 字元』^t』 字元』3』
十進位制53 十進位制34 十進位制20 十進位制51
表2 這樣「張3 」這個字串就被base64表示為」5^\^t3」了麼?。錯!
base64編碼方式並不是單純利用轉化完的內容進行編碼。像』^\』字元是控制字元,並不能通過計算機顯示出來,在某些場合就不能使用了。base64有其自身的編碼表:
table 1: the base64 alphabet
value encoding value encoding value encoding value encoding
0 a 17 r 34 i 51 z
1 b 18 s 35 j 52 0
2 c 19 t 36 k 53 1
3 d 20 u 37 l 54 2
4 e 21 v 38 m 55 3
5 f 22 w 39 n 56 4
6 g 23 x 40 o 57 5
7 h 24 y 41 p 58 6
8 i 25 z 42 q 59 7
9 j 26 a 43 r 60 8
10 k 27 b 44 s 61 9
11 l 28 c 45 t 62 +
12 m 29 d 46 u 63 /
13 n 30 e 47 v (pad) =
14 o 31 f 48 w
15 p 32 g 49 x
16 q 33 h 50 y
表3 這也是base64名稱的由來,而base64編碼的結果不是根據演算法把編碼變為高兩位是0而低6為代表資料,而是變為了上表的形式,如」a」就有7位,而」a」就只有6位。表中,編碼的編號對應的是得出的新位元組的十進位制值。因此,從表2可以得到對應的base64編碼:
字串「張3」
11010101 hex:d5 11000101 hex:c5 00110011 hex:33
00110101 00011100 00010100 00110011
字元』5』 字元』^\』 字元』^t』 字元』3』
十進位制53 十進位制34 十進位制20 十進位制51
字元』1』 字元』i』 字元』u』 字元』z』
表4 這樣,字串「張3」經過編碼後就成了字串「1iuz」了。
base64將3個位元組轉變為4個位元組,因此,編碼後的**量(以位元組為單位,下同)約比編碼前的**量多了1/3。之所以說是「約」,是因為如果**量正好是3的整數倍,那麼自然是多了1/3。但如果不是呢?
細心的人可能已經注意到了,在the base64 alphabet中的最後乙個有乙個(pad) =字元。這個字元的目的就是用來處理這個問題的。
當**量不是3的整數倍時,**量/3的餘數自然就是2或者1。轉換的時候,結果不夠6位的用0來補上相應的位置,之後再在6位的前面補兩個0。轉換完空出的結果就用就用「=」來補位。譬如結果若最後餘下的為2個位元組的「張」:
字串「張」
11010101 hex:d5 11000101 hex:c5
00110101 00011100 00010100
十進位制53 十進位制34 十進位制20 pad
字元』1』 字元』i』 字元』u』 字元』=』
表6 這樣,最後的2個位元組被整理成了「1iu=」。
同理,若原**只剩下乙個位元組,那麼將會新增兩個「=」。只有這兩種情況,所以,base64的編碼最多會在編碼結尾有兩個「=」
至於將base64的解碼,只是乙個簡單的編碼的逆過程,讀者可以自己**。我將在文章的最後給出解碼演算法。
演算法實現
其實在演算法詳解的時候基本上已經說的很清楚了。用於程式上,除去約束判斷,大概可以分為如下幾步幾步:
讀取資料3位元組用and取前6位,放入新的變數中右移兩位,高兩位清0and取第乙個位元組的後2位和第二個位元組的前4位移位放入新變數中右移兩位,清0……依此類推。
解碼的類c語言實現的演算法:
byte lmovebit(int base, int movenum)
char base64_alphabet=
; byte base64decode(char *base64code, dword base64length)
{ char buf[4];
int i,j;
int k;
int l=0;
byte temp1[4],temp2;
byte *buffer=new byte[base64length*3/4];
dword base64a=(base64length/4)-1;
dword base64b=0;
for(;[email protected]
'>
'>
'>
2003-12-25
'>
為什麼要使用Base64?
為什麼要使用base64?在設計這個編碼的時候,我想設計人員最主要考慮了3個問題 1.是否加密?2.加密演算法複雜程度和效率 3.如何處理傳輸?加密是肯定的,但是加密的目的不是讓使用者傳送非常安全的email。這種加密方式主要就是 防君子不防小人 即達到一眼望去完全看不出內容即可。基於這個目的加密演...
為什麼使用Base64
是一種基於64個可列印字元來表示二進位制資料的表示方法。在mime格式的電子郵件中,使用的字元包括大小寫拉丁字母各26個 數字10個 加號 和斜槓 共64個字元,在日常使用中我們還會看到 或 號出現在base64的編碼結果中,在此是作為填充字元出現.我們都知道計算機系統之間通過二進位制位元組流傳輸資...
為什麼要使用base64編碼,有哪些情景需求?
base64是一種資料編碼方式,目的是讓資料符合傳輸協議的要求。我們知道在計算機中任何資料都是按ascii碼儲存的,而ascii碼的128 255之間的值是不可見字元。而在網路上交換資料時,比如說從a地傳到b地,往往要經過多個路由裝置,由於不同的裝置對字元的處理方式有一些不同,這樣那些不可見字元就有...