哈夫曼編碼(huffman coding),又稱霍夫曼編碼,是一種編碼方式,哈夫曼編碼是可變字長編碼(vlc)的一種。huffman於2023年提出一種編碼方法,該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字,有時稱之為最佳編碼,一般就叫做huffman編碼(有時也稱為霍夫曼編碼)。
如果需要傳輸一段文字「badcadfeed」,可以用二進位制編碼表示。
這個時候資料編碼後是「001000011010000011101100100011」,對方接受後每三位一分進行解碼。但是在一段文章中,字母的出現頻率肯定有高有低,出現頻率高的元素的二進位制越短,傳輸的時候的資料也會越短。如果把上面**中多餘的前導0去掉,例如:b:1,d:11,那麼編碼之後的二進位制的確變短了,但是解碼的時候無法知道接受的資料中的11代表兩個b還是乙個d。
通過哈夫曼編碼可以構造出最優的二叉樹-哈夫曼樹來確定如何編碼。假設字母a
bcde
f頻率(%)278
1515305
哈夫曼編碼的規則就是:
1、先找出權值(頻率)最小的兩個作為左右子樹構造一棵新樹。即取5,8構成新樹,其結點為5+8=13,如圖:
2、再把新生成的權值為13的結點放到剩下的集合中,所以集合變成,再根據1,取最小的兩個權值構成新樹,如圖:
3、再依次建立哈夫曼樹,如下圖:
4、帶入對應的字元,左分支為0,右分支為1。
對字母用其從樹根到所在葉子所經過路徑的0或1來編碼,可以得到下表:字母a
bcde
f二進位制字元
011001
10100
111000
對比一下兩種編碼方式:大於節約17%的儲存或傳輸成本。
編碼中非0即1,長短不等的話其實很容易混淆的,所以若要設計長短不等的編碼,則必須是任一字元的編碼都不是另乙個字元的編碼的字首,這種編碼稱作無字首編碼。
哈夫曼編碼是一種無字首編碼。解碼時不會混淆。其主要應用在資料壓縮,加密解密等場合。如果考慮到進一步節省儲存空間,就應該將出現概率大(佔比多)的字元用盡量少的0-1進行編碼,也就是更靠近根(節點少),這也就是最優二叉樹-哈夫曼樹。
哈夫曼編碼 哈夫曼樹
1.定義 哈夫曼編碼主要用於資料壓縮。哈夫曼編碼是一種可變長編碼。該編碼將出現頻率高的字元,使用短編碼 將出現頻率低的字元,使用長編碼。變長編碼的主要問題是,必須實現非字首編碼,即在乙個字符集中,任何乙個字元的編碼都不是另乙個字元編碼的字首。如 0 10就是非字首編碼,而0 01不是非字首編碼。2....
哈夫曼樹 哈夫曼編碼
定義從a結點到b結點所經過的分支序列為從a結點到b結點的路徑 定義從a結點到b結點所進過的分支個數為從a結點到b結點的路徑長度 從二叉樹的根結點到二叉樹中所有結點的路徑長度紙盒為該二叉樹的路徑長度 huffman樹 帶權值路徑長度最小的擴充二叉樹應是權值大的外界點舉例根結點最近的擴充二叉樹,該樹即為...
哈夫曼編碼 哈夫曼樹
哈夫曼樹是乙個利用權值進行優化編碼的乙個比較奇怪的樹,他的實現比較簡單,用途也比較單一。哈夫曼樹的實現,實現要求 通過哈夫曼樹可以保證在編碼過程中不會出現例如 1000和100這樣的編碼規則,否則就會編碼失敗,因為1000和100在某些情況下的編碼會一模一樣。通過哈夫曼樹可以保證權值大的值進行編碼時...