哈夫曼編碼(huffman coding),又稱霍夫曼編碼,是一種編碼方式,可變字長編碼(vlc)的一種。huffman於2023年提出一種編碼方法,該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字,有時稱之為最佳編碼,一般就叫做huffman編碼(有時也稱為霍夫曼編碼)。
哈夫曼編碼,主要目的是根據使用頻率來最大化節省字元(編碼)的儲存空間。
簡易的理解就是,假如我有a,b,c,d,e五個字元,出現的頻率(即權值)分別為5,4,3,2,1,那麼我們第一步先取兩個最小權值作為左右子樹構造乙個新樹,即取1,2構成新樹,其結點為1+2=3,如圖:
虛線為新生成的結點,第二步再把新生成的權值為3的結點放到剩下的集合中,所以集合變成,再根據第二步,取最小的兩個權值構成新樹,如圖:
再依次建立哈夫曼樹,如下圖:
其中各個權值替換對應的字元即為下圖:
所以各字元對應的編碼為:a->11,b->10,c->00,d->011,e->010
霍夫曼編碼是一種無字首編碼。解碼時不會混淆。其主要應用在資料壓縮,加密解密等場合。
如果考慮到進一步節省儲存空間,就應該將出現概率大(佔比多)的字元用盡量少的0-1進行編碼,也就是更靠近根(節點少),這也就是最優二叉樹-哈夫曼樹。
為什麼?----->權值大的在上層,權值小的在下層。滿足出現頻率高的碼長短。
哈夫曼編碼的帶權路徑權值:葉子節點的值 * 葉子節點的高度(根節點為0)
上圖的帶權路徑長度為:(3+4+5)*2+(1+2)*3=33
以上**自
2019 03 27 哈夫曼樹 哈夫曼編碼的理解
一 思想的應用 1 檔案壓縮。2 資料通訊。將資料進行有效編碼。二 哈夫曼樹 將一組混亂的陣列,排成哈夫曼樹,可以分為以下幾步 假設陣列為arr 1 先將陣列排序,從小到大。2 陣列移除最小的兩個數,作為葉子節點,根節點為兩數之和,合成乙個二叉樹。3 將根節點加入陣列,對陣列重新排序。4 重複2 3...
哈夫曼編碼 哈夫曼樹
1.定義 哈夫曼編碼主要用於資料壓縮。哈夫曼編碼是一種可變長編碼。該編碼將出現頻率高的字元,使用短編碼 將出現頻率低的字元,使用長編碼。變長編碼的主要問題是,必須實現非字首編碼,即在乙個字符集中,任何乙個字元的編碼都不是另乙個字元編碼的字首。如 0 10就是非字首編碼,而0 01不是非字首編碼。2....
哈夫曼樹 哈夫曼編碼
定義從a結點到b結點所經過的分支序列為從a結點到b結點的路徑 定義從a結點到b結點所進過的分支個數為從a結點到b結點的路徑長度 從二叉樹的根結點到二叉樹中所有結點的路徑長度紙盒為該二叉樹的路徑長度 huffman樹 帶權值路徑長度最小的擴充二叉樹應是權值大的外界點舉例根結點最近的擴充二叉樹,該樹即為...