哈夫曼編碼的理解 Huffman Coding

哈夫曼編碼(huffman coding)，又稱霍夫曼編碼，是一種編碼方式，可變字長編碼(vlc)的一種。huffman於2023年提出一種編碼方法，該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字，有時稱之為最佳編碼，一般就叫做huffman編碼（有時也稱為霍夫曼編碼）。

哈夫曼編碼，主要目的是根據使用頻率來最大化節省字元（編碼）的儲存空間。

簡易的理解就是，假如我有a,b,c,d,e五個字元，出現的頻率（即權值）分別為5,4,3,2,1,那麼我們第一步先取兩個最小權值作為左右子樹構造乙個新樹，即取1，2構成新樹，其結點為1+2=3，如圖：

虛線為新生成的結點，第二步再把新生成的權值為3的結點放到剩下的集合中，所以集合變成，再根據第二步，取最小的兩個權值構成新樹，如圖：

再依次建立哈夫曼樹，如下圖：

其中各個權值替換對應的字元即為下圖：

所以各字元對應的編碼為：a->11,b->10,c->00,d->011,e->010

霍夫曼編碼是一種無字首編碼。解碼時不會混淆。其主要應用在資料壓縮，加密解密等場合。

如果考慮到進一步節省儲存空間，就應該將出現概率大（佔比多）的字元用盡量少的0-1進行編碼，也就是更靠近根（節點少），這也就是最優二叉樹-哈夫曼樹。