為什麼要使用Base64?

2021-09-05 22:10:56 字數 3688 閱讀 9146

為什麼要使用base64?

在設計這個編碼的時候,我想設計人員最主要考慮了3個問題:

1.是否加密?

2.加密演算法複雜程度和效率

3.如何處理傳輸?

加密是肯定的,但是加密的目的不是讓使用者傳送非常安全的email。這種加密方式主要就是「防君子不防小人」。即達到一眼望去完全看不出內容即可。

基於這個目的加密演算法的複雜程度和效率也就不能太大和太低。和上乙個理由類似,mime協議等用於傳送email的協議解決的是如何收發email,而並不是如何安全的收發email。因此演算法的複雜程度要小,效率要高,否則因為傳送email而大量占用資源,路就有點走歪了。

但是,如果是基於以上兩點,那麼我們使用最簡單的愷撒法即可,為什麼base64看起來要比愷撒法複雜呢?這是因為在email的傳送過程中,由於歷史原因,email只被允許傳送ascii字元,即乙個8位位元組的低7位。因此,如果您傳送了一封帶有非ascii字元(即位元組的最高位是1)的email通過有「歷史問題」的閘道器時就可能會出現問題。閘道器可能會把最高位置為0!很明顯,問題就這樣產生了!因此,為了能夠正常的傳送email,這個問題就必須考慮!所以,單單靠改變字母的位置的愷撒之類的方案也就不行了。關於這一點可以參考rfc2046。

基於以上的一些主要原因產生了base64編碼。

演算法詳解

base64編碼要求把3個8位位元組(3*8=24)轉化為4個6位的位元組(4*6=24),之後在6位的前面補兩個0,形成8位乙個位元組的形式。

具體轉化形式間下圖:

字串「張3」

11010101 11000101 00110011

00110101 00011100 00010100 00110011

表1 可以這麼考慮:把8位的位元組連成一串110101011100010100110011

然後每次順序選6個出來之後再把這6二進位制數前面再新增兩個0,就成了乙個新的位元組。之後再選出6個來,再新增0,依此類推,直到24個二進位制數全部被選完。

讓我們來看看實際結果:

字串「張3」

11010101 hex:d5 11000101 hex:c5 00110011 hex:33

00110101 00011100 00010100 00110011

字元』5』 字元』^\』 字元』^t』 字元』3』

十進位制53 十進位制34 十進位制20 十進位制51

表2 這樣「張3 」這個字串就被base64表示為」5^\^t3」了麼?。錯!

base64編碼方式並不是單純利用轉化完的內容進行編碼。像』^\』字元是控制字元,並不能通過計算機顯示出來,在某些場合就不能使用了。base64有其自身的編碼表:

table 1: the base64 alphabet

value encoding value encoding value encoding value encoding

0 a 17 r 34 i 51 z

1 b 18 s 35 j 52 0

2 c 19 t 36 k 53 1

3 d 20 u 37 l 54 2

4 e 21 v 38 m 55 3

5 f 22 w 39 n 56 4

6 g 23 x 40 o 57 5

7 h 24 y 41 p 58 6

8 i 25 z 42 q 59 7

9 j 26 a 43 r 60 8

10 k 27 b 44 s 61 9

11 l 28 c 45 t 62 +

12 m 29 d 46 u 63 /

13 n 30 e 47 v (pad) =

14 o 31 f 48 w

15 p 32 g 49 x

16 q 33 h 50 y

表3 這也是base64名稱的由來,而base64編碼的結果不是根據演算法把編碼變為高兩位是0而低6為代表資料,而是變為了上表的形式,如」a」就有7位,而」a」就只有6位。表中,編碼的編號對應的是得出的新位元組的十進位制值。因此,從表2可以得到對應的base64編碼:

字串「張3」

11010101 hex:d5 11000101 hex:c5 00110011 hex:33

00110101 00011100 00010100 00110011

字元』5』 字元』^\』 字元』^t』 字元』3』

十進位制53 十進位制34 十進位制20 十進位制51

字元』1』 字元』i』 字元』u』 字元』z』

表4 這樣,字串「張3」經過編碼後就成了字串「1iuz」了。

base64將3個位元組轉變為4個位元組,因此,編碼後的**量(以位元組為單位,下同)約比編碼前的**量多了1/3。之所以說是「約」,是因為如果**量正好是3的整數倍,那麼自然是多了1/3。但如果不是呢?

細心的人可能已經注意到了,在the base64 alphabet中的最後乙個有乙個(pad) =字元。這個字元的目的就是用來處理這個問題的。

當**量不是3的整數倍時,**量/3的餘數自然就是2或者1。轉換的時候,結果不夠6位的用0來補上相應的位置,之後再在6位的前面補兩個0。轉換完空出的結果就用就用「=」來補位。譬如結果若最後餘下的為2個位元組的「張」:

字串「張」

11010101 hex:d5 11000101 hex:c5

00110101 00011100 00010100

十進位制53 十進位制34 十進位制20 pad

字元』1』 字元』i』 字元』u』 字元』=』

表6 這樣,最後的2個位元組被整理成了「1iu=」。

同理,若原**只剩下乙個位元組,那麼將會新增兩個「=」。只有這兩種情況,所以,base64的編碼最多會在編碼結尾有兩個「=」

至於將base64的解碼,只是乙個簡單的編碼的逆過程,讀者可以自己**。我將在文章的最後給出解碼演算法。

演算法實現

其實在演算法詳解的時候基本上已經說的很清楚了。用於程式上,除去約束判斷,大概可以分為如下幾步幾步:

讀取資料3位元組用and取前6位,放入新的變數中右移兩位,高兩位清0and取第乙個位元組的後2位和第二個位元組的前4位移位放入新變數中右移兩位,清0……依此類推。

解碼的類c語言實現的演算法:

byte lmovebit(int base, int movenum)

char base64_alphabet= ;

byte base64decode(char *base64code, dword base64length) {

char buf[4];

int i,j;

int k;

int l=0;

byte temp1[4],temp2;

byte *buffer=new byte[base64length*3/4];

dword base64a=(base64length/4)-1;

dword base64b=0;

for(;[email protected]

'>

[email protected]

'>

[email protected]

'>

[email protected]

2003-12-25

[email protected]

'>

[email protected]

為什麼要使用Base64?

在設計這個編碼的時候,我想設計人員最主要考慮了3個問題 1.是否加密?2.加密演算法複雜程度和效率 3.如何處理傳輸?加密是肯定的,但是加密的目的不是讓使用者傳送非常安全的email。這種加密方式主要就是 防君子不防小人 即達到一眼望去完全看不出內容即可。基於這個目的加密演算法的複雜程度和效率也就不...

為什麼使用Base64

是一種基於64個可列印字元來表示二進位制資料的表示方法。在mime格式的電子郵件中,使用的字元包括大小寫拉丁字母各26個 數字10個 加號 和斜槓 共64個字元,在日常使用中我們還會看到 或 號出現在base64的編碼結果中,在此是作為填充字元出現.我們都知道計算機系統之間通過二進位制位元組流傳輸資...

為什麼要使用base64編碼,有哪些情景需求?

base64是一種資料編碼方式,目的是讓資料符合傳輸協議的要求。我們知道在計算機中任何資料都是按ascii碼儲存的,而ascii碼的128 255之間的值是不可見字元。而在網路上交換資料時,比如說從a地傳到b地,往往要經過多個路由裝置,由於不同的裝置對字元的處理方式有一些不同,這樣那些不可見字元就有...