哈夫曼樹哈夫曼編碼

哈夫曼編碼(huffman coding)，又稱霍夫曼編碼，是一種編碼方式，哈夫曼編碼是可變字長編碼(vlc)的一種。huffman於2023年提出一種編碼方法，該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字，有時稱之為最佳編碼，一般就叫做huffman編碼（有時也稱為霍夫曼編碼）。

如果需要傳輸一段文字「badcadfeed」，可以用二進位制編碼表示。

這個時候資料編碼後是「001000011010000011101100100011」，對方接受後每三位一分進行解碼。但是在一段文章中，字母的出現頻率肯定有高有低，出現頻率高的元素的二進位制越短，傳輸的時候的資料也會越短。如果把上面**中多餘的前導0去掉，例如：b：1，d：11,那麼編碼之後的二進位制的確變短了，但是解碼的時候無法知道接受的資料中的11代表兩個b還是乙個d。

通過哈夫曼編碼可以構造出最優的二叉樹-哈夫曼樹來確定如何編碼。假設字母a

bcde

f頻率(%)278

1515305

哈夫曼編碼的規則就是：

1、先找出權值（頻率）最小的兩個作為左右子樹構造一棵新樹。即取5，8構成新樹，其結點為5+8=13，如圖：

2、再把新生成的權值為13的結點放到剩下的集合中，所以集合變成，再根據1，取最小的兩個權值構成新樹，如圖：

3、再依次建立哈夫曼樹，如下圖：

4、帶入對應的字元，左分支為0，右分支為1。

對字母用其從樹根到所在葉子所經過路徑的0或1來編碼，可以得到下表：字母a

bcde

f二進位制字元

011001

10100

111000

對比一下兩種編碼方式：大於節約17%的儲存或傳輸成本。

編碼中非0即1，長短不等的話其實很容易混淆的，所以若要設計長短不等的編碼，則必須是任一字元的編碼都不是另乙個字元的編碼的字首，這種編碼稱作無字首編碼。

哈夫曼編碼是一種無字首編碼。解碼時不會混淆。其主要應用在資料壓縮，加密解密等場合。如果考慮到進一步節省儲存空間，就應該將出現概率大（佔比多）的字元用盡量少的0-1進行編碼，也就是更靠近根（節點少），這也就是最優二叉樹-哈夫曼樹。

哈夫曼樹哈夫曼編碼

哈夫曼編碼哈夫曼樹

哈夫曼樹哈夫曼編碼

哈夫曼編碼哈夫曼樹

哈夫曼樹 哈夫曼編碼

哈夫曼編碼 哈夫曼樹

哈夫曼樹 哈夫曼編碼

哈夫曼編碼 哈夫曼樹

相關推薦

哈夫曼樹哈夫曼編碼

哈夫曼編碼哈夫曼樹

哈夫曼樹哈夫曼編碼

哈夫曼編碼哈夫曼樹